일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- ubuntu
- 제어공학
- 개발
- pytorch
- MDP
- Mujoco
- 누구나 자료구조 알고리즘
- 강화학습
- 이분 탐색
- Stanford
- 블로그시작
- mnist
- q 함수
- 백준
- 인공지능
- 피드백제어
- CNN
- murray 제어공학
- 로보틱스
- Computer Vision
- notion
- 데보션
- 파이썬
- ROS
- 머신러닝
- 제어
- CS229
Archives
- Today
- Total
목록MDP (1)
기괴기계 (인공지능, ROS, 확률 통계 etc..)

Markov 모델은 두 가지 기준에 따라 구분될 수 있다.상태가 완전히 관측 가능한가?상태 전이에 대한 제어가 가능한가?상태 전이에 대한 제어가 가능한 상태에서 MDP와 POMDP는 completely observable이라는 기준에 따라 구분된다.이 때, 상태 전이에 대한 제어라는 뜻은 사용자(또는 에이전트)가 상태 전이를 자신의 행동(action)을 통해 조작할 수 있는지에 대한 이야기이다.Markov Chain은 상태 전이가 순전히 확률적으로 결정상태 간 전이가 고정된 확률분포로만 이루어지며, 외부에서 개입할 수 없음.MDP는 에이전트가 행동(action)을 통해 상태 전이에 영향을 미칠 수 있음.$p(s_2|s_1,a_1)$을 흔히 Transition Probability라고 부르는데, 이 때 a..
강화학습
2025. 1. 29. 18:08