주제통합01 (가) 마코프의사 결정 모형과 주식 시장의 효율적 시장 가설 외 1개

🏢 주제통합 🏷️ 50% 할인
👁️ 2 ⬇️ 0 💬 0 🔥 0

📋 상품 구성

📖 내용 정리 (학습/PDF)
요약 0개
준비 중
📝 예상 문제 (학습/PDF)
문제 0개
3,000P
1,500P

📄 본문 미리보기

[가]
(가)
인공 지능의 강화 학습이란 에이전트가 주어진 환경에서 적절한 행동을 취하고, 환경으로부터 받는 보상을 최대화하는 정책을 학습하는 과정이다. 이 과정에서 중요한 문제는 어떻게 하면 에이전트가 각각의 상태에서 최적의 의사 결정을 내릴 수 있는가이다. 수학자인 리처드 벨만은 마코프 의사 결정 모형(MDP)을 도입해 이 문제를 해결하려 했다. MDP란 불확실성이 있는 환경에서의 순차적 의사 결정 모형으로, 미래에 대한 예측이 확률 분포로 주어진 상황에서 마코프 특성에 따라 정책을 결정하는 과정이다. ‘마코프 특성’이란 현재 상태에 의해서만 다음 상태가 결정되는 성질이다. 즉 현재 상태에 이르기까지의 과정은 다음 상태를 예측할 때 고려되지 않는다.MDP는 상태, 행동, 보상, 상태 변이 확률 등으로 구성된다. 여기서 상태란 에이전트에게 관찰되는 환경을, 행동이란 에이전트가 각각의 상태에서 취할 수 있는 반응을 의미한다. 보상은 에이전트가 특정 행동을 취했을 때 환경으로부터 주...

📑 PDF 미리보기

📄
PDF를 불러오는 중...

💬 댓글 (0)

로그인 후 댓글을 작성할 수 있습니다.
아직 댓글이 없습니다. 첫 댓글을 남겨보세요!

💰 구매하기

로그인이 필요합니다

로그인
📖 내용 정리만
준비 중
📝 예상 문제만
3,000P
1,500P