06048315: REINFORCEMENT LEARNING

ศึกษาแนวคิดและอัลกอริธึมพื้นฐานของการเรียนรู้แบบเสริมกําลัง ทั้งในบริบทที่มีข้อมูลสมบูรณ์และไม่สมบูรณ์ รวมถึงการค้นหาที่ไม่รู้ข้อมูล การค้นหาแบบรู้ข้อมูล การตัดสินใจในเกมสองผู้เล่น การค้นหาแบบเอ็กซ์เพกติแมกซ์ โมเดลกระบวนการตัดสินใจแบบมาร์คอฟ ไดนามิกโปรแกรมมิ่ง แวลูอิทิเลชั่น โพลิซีอิทิเลชั่น กระบวนการมอนติคาโล การเรียนรู้แบบความแตกต่างทางเวลา การเรียนรู้แบบคิว การเรียนรู้แบบออนโพลิซี และออฟโพลิซี การใช้ตัวประมาณฟังก์ชัน การเรียนรู้แบบเสิร์มกําลังเชิงลึก การเรียนรู้แบบใช้โมเดลและการเรียนรู้แบบไม่ใช้โมเดล วิธีด้านโพลิซีเกรเดียน

Study of the fundamental concepts and algorithms of Reinforcement Learning in both complete and incomplete information environments. Topics include Uninformed Search, Informed Search, Two-player Game Decision Making, Expectimax Search, Markov Decision Process (MDP), Dynamic Programming, Monte Carlo Methods, Temporal-Difference Learning, Q-learning, On-policy and Off-policy Learning, Function Approximators, Deep ReinforcementLearning, Model-based and Model-free Approaches, and Policy Gradient Methods.

REINFORCEMENT LEARNING

Description