每日精选AI研究论文及翻译
我们推出Lumine,这是首个开放配方,用于开发能够在具有挑战性的3D开放世界环境中实时完成长达数小时复杂任务的通用智能体。Lumine采用了一种类人交互范式,通过视觉语言模型驱动,将感知、推理与行动以端到端的方式统一起来。它以5赫兹的频率处理原始像素数据,生成精确的30赫兹键鼠操作,并仅在必要时自适应地调用推理功能。在《原神》中训练后,Lumine成功以与人类相当的效率完成了整个五小时的蒙德主线剧情,并遵循自然语言指令,在3D开放世界探索与2D图形用户界面操作中执行了包括收集、战斗、解谜及与非玩家角色互动在内的广泛任务。除了在领域内的卓越表现,Lumine还展现了强大的零样本跨游戏泛化能力。未经任何微调,它便完成了《鸣潮》中100分钟的任务以及《崩坏:星穹铁道》首章五小时的全部内容。这些令人鼓舞的成果凸显了Lumine在不同世界与交互动态中的有效性,标志着在开放环境中迈向通用智能体的坚实一步。