大家好,小百来为大家解答以上的问题。什么是强化小麦粉,什么是强化学习这个很多人还不知道,现在让我们一起来看看吧!
1、也叫增强学习,reinforcement learning。
2、分为value-base跟policy-base。
3、主题思想是根据历史经验来更多的选择活得回报更多的动作,而减少被惩罚的动作。
4、常见的value-base算法有:Q-learning常见的policy-base算法有:策略梯度算法由于深度学习的火热,先强化学习都是跟深度学习结合起来,比如deep Q learning,Actor-Critic network等。
5、[1]Barto A G. Reinforcement learning[J]. A Bradford Book, 1998, volume 15(7):665-685.[2]Wang J X, Kurth-Nelson Z, Kumaran D, et al. Prefrontal cortex as a meta-reinforcement learning system[J]. Nature Neuroscience, 2018, 21(6).。
本文到此分享完毕,希望对大家有所帮助。