0%

天气越来越寒冷,病毒却越来越活跃。

每天打开手机的第一件事就是看看哪里又有新增病例了,希望不会影响回家的行程。

明天就要离校了,学校里愈发冷清了,下午去寄快递的时候门口的保安说现在学校里的同学只剩三十几个了。

阅读全文 »

好久没发推文了,倒也不是没有时间,只是以新的身份踏入新的校园,有了新的室友,认识了新的朋友,要学习新的知识,适应新的城市,确实需要不断磨合,推文也就不太顾得上了。

晚上回宿舍的时候,宿舍楼门口的挂着的🏮,墙壁上贴着的对联,大厅里各色的🎈,仿佛都在提醒我,2021要结束了。

但2021年对我来说确实算得上人生中重要的一年了。

还是用文字和图片做个总结吧。

阅读全文 »

蒙特卡洛神经虚构自我博弈—不完全信息博弈的近似纳什均衡的方法

原文链接:https://arxiv.org/abs/1903.09569

原文开源代码:暂无

摘要

人工智能领域的研究人员已经用 AI 在信息完整的大规模游戏上达到了人类水准,但要在信息不完整的大规模游戏(即战争游戏、足球教练或商业策略游戏)上实现最优结果(即近似纳什均衡)仍是一大挑战。神经虚拟自我对弈(NFSP)算法可以通过自我对弈,在没有先验领域知识的情况下有效学习信息不完整游戏的近似纳什均衡。但是,它依赖于深度 Q 网络,但这种网络是离线的而且很难融入对手策略不断变化的在线游戏,因此深度 Q 网络无法在游戏中用大规模搜索和深度搜索来达到近似纳什均衡。本文中,我们提出了蒙特卡洛神经虚拟自我对弈(MC-NFSP)算法,该方法结合了蒙特卡洛树搜索和 NFSP,大大提高了模型在信息不完整的大规模零和游戏中的表现。实验证明,该算法可以利用大规模深度搜索达到 NFSP 无法实现的近似纳什均衡。此外,我们开发了异步神经虚拟自我对弈(ANFSP)算法,该算法使用异步架构和并行架构来收集游戏经验。在实验中,我们发现并行 actor-learner 能够进一步加速和稳定训练。

阅读全文 »

争取用深度强化学习玩所有的MOBA游戏

原文链接:https://arxiv.org/abs/2011.12692

原文开源代码:暂无

摘要

MOBA游戏,例如王者荣耀,英雄联盟和Dota2,对AI系统构成很大的挑战,如multi-agent,巨大的状态动作空间,复杂的动作控制等。开发一个能够玩Moba游戏的AI已经吸引了大量研究人员的注意。然而,当将OpenAI仅限制在17个英雄的池中Dota AI扩大英雄池时,现有工作无法处理由agent组合形成的动作空间爆炸,即阵容。因此,没有限制的完整Moba游戏远远不能被任何现有的AI系统掌握。在本文中,我们提出了一个MOBA AI的学习框架,该方法能够使用深度强化学习玩所有的MOBA游戏。具体而言,我们提出将新的学习技巧和现有的学习技巧的组合,包括curriculum self-play学习,策略蒸馏,离线策略适应,多头值估计和蒙特卡罗树搜索,以在一个大的英雄池上训练和玩游戏。王者荣耀是一个受欢迎的MOBA游戏,我们展示了如何构建可以击败顶级电子竞技玩家的超级AI agent。通过对本文中的Moba AI agent进行大规模的性能测试,证明了我们AI的优势。

阅读全文 »

第一次考核

小组讨论

针对所讲的内容,相互协调,举行一个 Seminar, 选择一个 Topic,make a 10-minutes PPT, 进行presentation,6 minutes discussion for each topic。

Topic 2: Jordan 矩阵

阅读全文 »