前沿 2018-10-18 11:10

一种向人工智能强化学习加入好奇心的新方法

汉同 摘自 TechXplore科技新闻网站

【据TechXplore科技新闻网站2018年10月17日报道】来自DeepMind,Google Brain和瑞士苏黎世联邦理工学院的研究人员提出了一种新的向强化学习过程加入好奇心的方法,使得智能体在稀疏奖励训练过程中倾向于探索未知领域,以更快地获得实际任务奖励。在真实世界的学习过程中,智能体获得的奖励通常是稀疏的,因此在训练过程中允许智能体自主地为自己创造奖励,引导它探索未知领域,获得实际任务奖励。当前最先进的方法是ICM方法,算法通过当前状态和行为预测未来的状态,并采取最可能导致不可预测后果的行动,以实现未知领域的探索。研究人员提出的新方法相比ICM可以更快地达到期望目标。训练过程中,智能体将每一次行动观察到的状态表征存储在记忆中。为了衡量当前观察到的状态是否为未知的,智能体将该表征与记忆中的表征比较。对于相似度低的状态,将获得更高的奖励,若是相似度高,则会得到惩罚。但是研究人员发现,在真实世界任务中,几乎不会出现高度匹配的两个状态,因此精确匹配毫无意义。为此研究人员提出新的衡量方案。如果智能体能够从记忆中的某一个状态开始,经过有限的过渡状态到达当前状态,则表明该状态为熟知领域,获得惩罚,反之为未知领域,获得奖励。最终,该算法获得了比ICM更好的效果。在未来,研究人员希望使用情景记忆不仅用于奖励,还用于计划行动。如果能够实现根据记忆中检索到的内容考虑下一步的去向,那么智能体将能够迅速将探索策略适应新环境,从而使学习速度更快。该项研究相关论文《Episodic curiosity through reachability》已提交到ICLR 2019会议上。

阅读 收藏

相关专题: 智能技术