梗直哥强化学习必修课视频课程无一遗漏无课件

目录

001.1-1 课程内容和理念,mp4
002.1-2 认识强化学习.mp4
003.1-3 课程使用的技术栈,mp4
004.2-1 线性代数.mp4
005.2-2 微积分.mp4
006.2-3 概率,mp4
007.3-1 CUDA+Anaconda深度学习环境配置,mp4
008.3-2 conda使用命令,mp4
009.3-3 Jupyter Notebook快速上手.mp4
010.3-4 仿真环境Gym安装,mp4
011.3-5 深度学习库PyTorch的安装,mp4
012.4-1 序列建模与概率图模型,mp4
013.4-2 马尔可夫观测过程:学会”看”.mp4
014.4-3 马尔可夫决策过程:试着“干”.mp4
015.4-4 马尔可夫奖励过程:懂得“想”.mp4
016.4-5 贝尔曼方程:选代求解价值函数,mp4
017.4-6 模型分类与选择,mp4
018.4-7 常见问题解析.mp4
019.4-8 马尔可夫过程代码实现,mp4
020.5-1 动态回归核心思想和原理,mp4
021.5-2 策略选代.mp4
022.5-3 价值选代.mp4
023.5-4 动态规划代码实现.mp4
024,6-1 蒙特卡洛方法.mp4
025.6-2 时序差分方法,mp4
026.6-3 蒙特卡洛方法和时序差分代码实现.mp4
027.6-4 广义策略选代.mp4
028.6-5 Q-Learning算法,mp4
029.6-6 SARSA算法.mp4
030.6-7 Q-Learning&SARSA代码实现.mp4
031.7-1 深度Q网络核心思想和原理,mp4
032.7-2 DQN 代码实现.mp4
033.7-3 常见问题改进和扩展.mp4
034.7-4 DQN改进算法代码实现.mp4
035.8-1 策略梯度核心思想和原理,mp4
036.8-2 蒙特卡洛策略梯度,mp4
037.8-3 策略梯度方法代码实现,mp4
038.8-4 近端策略优化算法.mp4

043.9-4 深度确定性策略梯度,mp4
044.9-5 DDPG算法代码实现.mp4
045.9-6 软性演员评论家算法,mp4
046.9-7 SAC代码实现.mp4
047.10-1 基于模型的强化学习核心思想和原理,mp4
048.10-2 Dyna-Q算法.mp4
049.10-3 Dyna-Q算法代码实现,mp4
050.10-4 基于模型的策略优化.mp4
051.10-5 MBPO的代码实现.mp4
052.11-1模仿学习.mp4
053.11-2 博弈论与强化学习,mp4
054.11-3 多智能体强化学习.mp4
055.11-4 MADDP的代码实现.mp4
056.11-5 AlphaStar系统,mp4
057.11-6 基于人类反馈大强化学习,mp4
058.12-1 项目实战:Gym游戏.mp4
059.12-2 项目实战:大模型RLHF.mp4
060.12-3 强化学习最新发展趋势,mp4
061.12-4 下一步的学习建议,mp4

一本网尊重作者的著作权,如有问题,请联系站长处理
巨量学院 » 梗直哥强化学习必修课视频课程无一遗漏无课件