ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

1

世界建模中的扩散:Atari 中的视觉细节至关重要
Diffusion for World Modeling: Visual Details Matter in Atari

May 20
ByEloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret
30
4

世界模型构成了一种有前途的方法,可以以安全且高效的方式训练强化学习代理。最近的世界模型主要通过序列化的离散潜变量来模拟环境动态。然而,这种压缩成紧凑的离散表示可能会忽略对强化学习重要的视觉细节。与此同时,扩散模型已成为图像生成的主要方法,挑战着传统的建模离散潜变量的方法。受这种范式转变的启发,我们引入了DIAMOND(DIffusion As a Model Of eNvironment Dreams),这是一个在扩散世界模型中训练的强化学习代理。我们分析了使扩散适用于世界建模所需的关键设计选择,并展示了如何通过改进的视觉细节可以提高代理的性能。DIAMOND在具有竞争力的Atari 100k基准测试中实现了平均人类标准化得分为1.46;这是完全在世界模型中训练的代理的新记录。为了促进未来关于将扩散用于世界建模的研究,我们在https://github.com/eloialonso/diamond 上发布了我们的代码、代理和可玩世界模型。

2

全能胶水:基于基础模型指导的通用特征匹配
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21
ByHanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
12
2

图像匹配领域不断涌现新的可学习特征匹配技术,其在传统基准测试中表现不断提升。然而,我们的研究显示,尽管取得了这些进展,但它们在面向新领域的实际应用潜力受到限制,因为它们对新领域的泛化能力有限。本文介绍了 OmniGlue,这是第一个以泛化作为核心原则设计的可学习图像匹配器。OmniGlue利用视觉基础模型的广泛知识来引导特征匹配过程,提升对训练时未见领域的泛化能力。此外,我们提出了一种新颖的关键点位置引导的注意机制,将空间和外观信息解耦,从而产生增强的匹配描述符。我们在包括场景级、物体中心和航拍图像在内的7个数据集上进行了全面实验。OmniGlue的新颖组件相对于一个直接可比的参考模型在未见领域上实现了20.9%的相对增益,同时也比最近的 LightGlue 方法相对提高了9.5%。代码和模型可在 https://hwjiang1510.github.io/OmniGlue 找到。

5月22日
5月23日
5月24日