AI研究论文每日精选

每日精选AI研究论文及翻译

世界建模中的扩散：Atari 中的视觉细节至关重要
Diffusion for World Modeling: Visual Details Matter in Atari

May 20

ByEloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret

世界模型构成了一种有前途的方法，可以以安全且高效的方式训练强化学习代理。最近的世界模型主要通过序列化的离散潜变量来模拟环境动态。然而，这种压缩成紧凑的离散表示可能会忽略对强化学习重要的视觉细节。与此同时，扩散模型已成为图像生成的主要方法，挑战着传统的建模离散潜变量的方法。受这种范式转变的启发，我们引入了DIAMOND（DIffusion As a Model Of eNvironment Dreams），这是一个在扩散世界模型中训练的强化学习代理。我们分析了使扩散适用于世界建模所需的关键设计选择，并展示了如何通过改进的视觉细节可以提高代理的性能。DIAMOND在具有竞争力的Atari 100k基准测试中实现了平均人类标准化得分为1.46；这是完全在世界模型中训练的代理的新记录。为了促进未来关于将扩散用于世界建模的研究，我们在https://github.com/eloialonso/diamond 上发布了我们的代码、代理和可玩世界模型。

全能胶水：基于基础模型指导的通用特征匹配
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21

ByHanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo

图像匹配领域不断涌现新的可学习特征匹配技术，其在传统基准测试中表现不断提升。然而，我们的研究显示，尽管取得了这些进展，但它们在面向新领域的实际应用潜力受到限制，因为它们对新领域的泛化能力有限。本文介绍了 OmniGlue，这是第一个以泛化作为核心原则设计的可学习图像匹配器。OmniGlue利用视觉基础模型的广泛知识来引导特征匹配过程，提升对训练时未见领域的泛化能力。此外，我们提出了一种新颖的关键点位置引导的注意机制，将空间和外观信息解耦，从而产生增强的匹配描述符。我们在包括场景级、物体中心和航拍图像在内的7个数据集上进行了全面实验。OmniGlue的新颖组件相对于一个直接可比的参考模型在未见领域上实现了20.9%的相对增益，同时也比最近的 LightGlue 方法相对提高了9.5%。代码和模型可在 https://hwjiang1510.github.io/OmniGlue 找到。

世界建模中的扩散：Atari 中的视觉细节至关重要

Diffusion for World Modeling: Visual Details Matter in Atari

May 20

ByEloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret

全能胶水：基于基础模型指导的通用特征匹配

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21

ByHanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo

AI研究论文每日精选

世界建模中的扩散：Atari 中的视觉细节至关重要Diffusion for World Modeling: Visual Details Matter in Atari

全能胶水：基于基础模型指导的通用特征匹配OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

AI研究论文每日精选

世界建模中的扩散：Atari 中的视觉细节至关重要Diffusion for World Modeling: Visual Details Matter in Atari

全能胶水：基于基础模型指导的通用特征匹配OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

世界建模中的扩散：Atari 中的视觉细节至关重要
Diffusion for World Modeling: Visual Details Matter in Atari

全能胶水：基于基础模型指导的通用特征匹配
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

世界建模中的扩散：Atari 中的视觉细节至关重要
Diffusion for World Modeling: Visual Details Matter in Atari

全能胶水：基于基础模型指导的通用特征匹配
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance