06046419: REINFORCEMENT LEARNING
การค้นหาที่ไม่รู้ข้อมูล การค้นหาแบบรู้ข้อมูล เกมที่เล่นสองคนและการค้นหาแบบมินิแมกซ์ โมเดลกระบวนการตั
Description
การค้นหาที่ไม่รู้ข้อมูล การค้นหาแบบรู้ข้อมูล เกมที่เล่นสองคนและการค้นหาแบบมินิแมกซ์ โมเดลกระบวนการตัดสินใจแบบมาร์คอฟ ไดนามิกโปรแกรมมิ่ง แวลูอิทิเลชั่น โพลิซีอิทิเลชั่น กระบวนการมอนติคาโล การเรียนรู้แบบความแตกต่างทางเวลา การบูทสแตรป การเรียนรู้แบบออนโพลิซี และออฟโพลิซี การใช้ตัวประมาณฟังก์ชัน การเรียนรู้แบบเสิร์มกำลังเชิงลึก การเรียนรู้แบบใช้โมเดล และการเรียนรู้แบบไม่ใช้โมเดล วิธีด้านโพลิซีเกรเดียน
Uninformed Search; Informed Search; Two-player game and MiniMax Search; ExpectiMax Search; Markov Decision Process; Dynamic Programming, Value iteration and policy iteration; Monte Carlo Methods; Temporal-Difference Learning and Q-learning; Bootstrapping; on-policy and off-policy methods; Function approximator and Deep Reinforcement Learning; Model-based and model-free methods; Policy Gradient methods.
Credits
3 Credits (3-0-6)
Level
Undergraduate
This subject is part of the following programs