每日精选AI研究论文及翻译
生成式游戏引擎有潜力彻底改变游戏开发,通过自主创建新内容和减少手动工作量。然而,现有基于视频的游戏生成方法未能解决场景泛化的关键挑战,限制了它们适用于具有固定风格和场景的现有游戏。在本文中,我们提出了GameFactory,一个专注于探索游戏视频生成中场景泛化的框架。为了实现全新和多样化游戏的创作,我们利用在开放域视频数据上训练的预训练视频扩散模型。为了弥合开放域先验和小规模游戏数据集之间的领域差距,我们提出了一个多阶段训练策略,将游戏风格学习与动作控制解耦,保持开放域泛化同时实现动作可控性。利用Minecraft作为我们的数据来源,我们发布了GF-Minecraft,一个高质量且多样化的动作注释视频数据集供研究使用。此外,我们扩展了我们的框架,实现自回归动作可控的游戏视频生成,实现无限长度的互动游戏视频制作。实验结果表明,GameFactory有效生成开放域、多样化和动作可控的游戏视频,代表了人工智能驱动游戏生成的重要进展。我们的数据集和项目页面可在https://vvictoryuki.github.io/gamefactory/公开获取。
本研究探讨了深度生成模型是否能够仅通过视觉输入学习复杂知识,与目前主要关注大型语言模型(LLMs)等基于文本的模型形成对比。我们开发了VideoWorld,这是一个自回归视频生成模型,使用未标记的视频数据进行训练,并在基于视频的围棋和机器人控制任务中测试其知识获取能力。我们的实验揭示了两个关键发现:(1)仅使用视频训练提供了学习知识所需的足够信息,包括规则、推理和规划能力;(2)视觉变化的表示对知识获取至关重要。为了提高这一过程的效率和效力,我们引入了潜在动态模型(LDM)作为VideoWorld的关键组成部分。值得注意的是,VideoWorld 在 Video-GoBench 中仅使用一个拥有 3 亿参数的模型就达到了 5 丹职业水平,而无需依赖于强化学习中典型的搜索算法或奖励机制。在机器人任务中,VideoWorld 有效地学习了各种控制操作,并在不同环境中实现泛化,接近于 CALVIN 和 RLBench 中的 Oracle 模型的性能。这项研究为从视觉数据中获取知识开辟了新的途径,所有代码、数据和模型均已开源供进一步研究使用。
最近,LoRA及其变种已成为训练和共享大型预训练模型特定任务版本的事实标准策略,这归功于其高效性和简单性。然而,针对LoRA权重的版权保护问题,特别是基于水印的技术,仍未得到充分探讨。为填补这一空白,我们提出了SEAL(SEcure wAtermarking on LoRA weights),这是LoRA的通用白盒水印技术。SEAL在可训练的LoRA权重之间嵌入了一个秘密的、不可训练的矩阵,作为主张所有权的护照。然后,SEAL通过训练将护照与LoRA权重纠缠在一起,而不需要额外的纠缠损失,并在隐藏护照后分发微调后的权重。在应用SEAL时,我们观察到在常识推理、文本/视觉指导调整以及文本到图像合成任务中没有性能下降。我们证明SEAL对各种已知攻击具有鲁棒性:删除、混淆和模糊攻击。