ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

HunyuanWorld 1.0:从文字或像素生成沉浸式、可探索与交互的3D世界
HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

Jul 29, 2025
HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo
463

从文本或图像创建沉浸式且可游玩的3D世界,始终是计算机视觉与图形学领域的一项根本性挑战。现有的世界生成方法主要分为两类:基于视频的方法虽能提供丰富的多样性,却缺乏3D一致性和渲染效率;而基于3D的方法虽保证了几何一致性,却受限于训练数据的匮乏和内存效率低下的表示方式。为克服这些局限,我们推出了HunyuanWorld 1.0,一个创新框架,它融合了两者的优势,能够依据文本和图像条件生成沉浸式、可探索且互动的3D场景。我们的方法具备三大核心优势:1)通过全景世界代理实现360°沉浸体验;2)具备网格导出能力,确保与现有计算机图形管线的无缝兼容;3)解耦的对象表示,增强了交互性。该框架的核心在于一种语义分层的3D网格表示法,它利用全景图像作为360°世界代理,进行语义感知的世界分解与重建,从而生成多样化的3D世界。大量实验证明,我们的方法在生成连贯、可探索且互动的3D世界方面达到了业界领先水平,同时为虚拟现实、物理模拟、游戏开发及互动内容创作等应用场景提供了广泛的可能性。

X-Omni:强化学习让离散自回归图像生成模型重焕新生
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Jul 29, 2025
Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
181

众多研究致力于将“下一标记预测”范式扩展至视觉内容领域,旨在构建一种统一的方法,同时实现图像生成与理解。然而,通过离散标记进行自回归建模来生成图像的尝试,普遍面临视觉保真度低、输出失真以及在渲染复杂细节时难以遵循复杂指令等问题。这些不足很可能归因于自回归推理过程中的累积误差或离散化过程中的信息丢失。或许正是由于这一挑战,近期研究逐渐转向将图像生成与扩散目标联合训练,同时保持语言生成的自回归目标,从而偏离了统一建模的路径。在本研究中,我们展示了强化学习能够有效减少伪影,显著提升离散自回归建模方法的生成质量,进而实现图像与语言生成的无缝整合。我们的框架包含一个语义图像标记器、一个适用于语言和图像的统一自回归模型,以及一个用于图像生成的离线扩散解码器,命名为X-Omni。X-Omni在图像生成任务中,利用7B规模的语言模型取得了业界领先的性能,不仅生成了具有高美学质量的图像,还展现出强大的指令遵循能力和长文本渲染能力。

CUDA-L1:通过对比强化学习提升CUDA优化性能
CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning

Jul 18, 2025
Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum
111

随着大语言模型的快速发展,对GPU计算资源的需求呈指数级增长,这催生了对自动化CUDA优化策略的迫切需求。尽管近期大语言模型在代码生成方面展现出潜力,但当前最先进的模型(如R1、o1)在提升CUDA速度方面成功率较低。本文介绍了一种名为CUDA-L1的自动化强化学习框架,专为CUDA优化设计。 CUDA-L1在CUDA优化任务中实现了显著的性能提升:在NVIDIA A100上训练后,它在KernelBench的所有250个CUDA内核上平均加速17.7倍,峰值加速高达449倍。此外,该模型还展现了出色的跨GPU架构移植性,在H100、RTX 3090、L40、H800和H20上分别实现了平均17.8倍、19.0倍、16.5倍、14.7倍和13.9倍的加速,尽管其优化专门针对A100进行。除了这些基准测试结果,CUDA-L1还展示了几个显著特性:1)发现多种CUDA优化技术,并学会策略性地组合它们以达到最佳性能;2)揭示CUDA优化的基本原理;3)识别非显而易见的性能瓶颈,并拒绝看似有益实则损害性能的优化方案。 CUDA-L1的能力表明,仅通过基于加速的奖励信号,强化学习就能将初始表现不佳的大语言模型转变为高效的CUDA优化器,无需人类专业知识或领域知识。更重要的是,训练后的强化学习模型能够将习得的推理能力扩展到新内核上。这一范式为CUDA操作的自动化优化开辟了可能性,有望大幅提升GPU效率,缓解GPU计算资源日益增长的压力。

动物线索:通过痕迹识别动物
AnimalClue: Recognizing Animals by their Traces

Jul 27, 2025
Risa Shinoda, Nakamasa Inoue, Iro Laina, Christian Rupprecht, Hirokatsu Kataoka
51

野生动物观察在生物多样性保护中扮演着重要角色,这要求我们采用稳健的方法来监测野生动物种群及种间互动。近年来,计算机视觉领域的显著进展极大地推动了基础野生动物观察任务的自动化,如动物检测与物种识别。然而,尽管通过足迹、粪便等间接证据准确识别物种对于野生动物监测至关重要,这一领域仍相对缺乏深入探索。为填补这一空白,我们推出了AnimalClue,首个基于间接证据图像进行物种识别的大规模数据集。该数据集包含159,605个边界框,涵盖五类间接线索:足迹、粪便、卵、骨骼和羽毛,覆盖了968个物种、200个科及65个目。每张图像均标注有物种级别标签、边界框或分割掩码,以及包括活动模式和栖息地偏好在内的细粒度特征信息。与现有主要关注直接视觉特征(如动物外观)的数据集不同,AnimalClue因需识别更为细致和微妙的视觉特征,为分类、检测及实例分割任务带来了独特挑战。在实验中,我们广泛评估了代表性视觉模型,并识别出从动物痕迹进行识别时的关键挑战。我们的数据集与代码已公开于https://dahlian00.github.io/AnimalCluePage/。

MaPPO:基于先验知识的最大后验偏好优化
MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge

Jul 27, 2025
Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
51

随着大语言模型(LLMs)代表用户时代的到来,偏好优化(Preference Optimization, PO)方法已成为将LLMs与人类偏好对齐并提升性能的核心途径。我们提出了最大后验偏好优化(Maximum a Posteriori Preference Optimization, MaPPO),这是一个从偏好中学习的框架,明确地将先验奖励知识整合到优化目标中。尽管现有方法如直接偏好优化(Direct Preference Optimization, DPO)及其变体将偏好学习视为最大似然估计(Maximum Likelihood Estimation, MLE)问题,MaPPO通过将先验奖励估计融入一个原则性的最大后验(Maximum a Posteriori, MaP)目标,扩展了这一范式。这不仅推广了DPO及其变体,还通过缓解对响应进行过度简化的二分类,增强了对齐效果。更重要的是,MaPPO未引入额外超参数,并支持离线和在线环境下的偏好优化。此外,MaPPO可作为插件使用,在包括广泛应用的SimPO、IPO和CPO在内的DPO变体上实现一致改进。在MT-Bench、AlpacaEval 2.0和Arena-Hard三个标准基准上,对不同模型规模和系列进行的广泛实证评估表明,MaPPO在不牺牲计算效率的前提下,持续提升了对齐性能。

MOVE:运动引导的少样本视频目标分割
MOVE: Motion-Guided Few-Shot Video Object Segmentation

Jul 29, 2025
Kaining Ying, Hengrui Hu, Henghui Ding
31

本研究致力于解决运动引导的少样本视频目标分割(FSVOS)问题,其目标是根据少量具有相同运动模式的标注示例,对视频中的动态目标进行分割。现有的FSVOS数据集和方法通常聚焦于目标类别这一静态属性,忽视了视频中丰富的时序动态信息,限制了其在需要理解运动场景中的应用。为填补这一空白,我们引入了MOVE,一个专为运动引导FSVOS设计的大规模数据集。基于MOVE,我们在两种实验设置下全面评估了来自三个不同相关任务的六种先进方法。结果表明,现有方法在应对运动引导FSVOS时面临挑战,这促使我们深入分析相关难题,并提出了一种基线方法——解耦运动外观网络(DMA)。实验证明,我们的方法在少样本运动理解上表现出色,为未来该方向的研究奠定了坚实基础。

评估深度学习模型在非洲野生动物图像分类中的应用:从DenseNet到视觉Transformer
Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers

Jul 28, 2025
Lukman Jibril Aliyu, Umar Sani Muhammad, Bilqisu Ismail, Nasiru Muhammad, Almustapha A Wakili, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad, Mustapha Abdullahi
11

非洲野生动物种群面临严峻威胁,过去五十年间脊椎动物数量减少了超过65%。对此,基于深度学习的图像分类技术已成为生物多样性监测与保护的有力工具。本文针对非洲野生动物图像的自动分类,开展了一项深度学习模型的对比研究,重点探讨了冻结特征提取器的迁移学习方法。利用包含水牛、大象、犀牛和斑马四种物种的公开数据集,我们评估了DenseNet-201、ResNet-152、EfficientNet-B4及Vision Transformer ViT-H/14的性能。其中,DenseNet-201在卷积神经网络中表现最佳(准确率67%),而ViT-H/14则达到了最高的总体准确率(99%),但其显著更高的计算成本引发了部署方面的顾虑。我们的实验揭示了准确率、资源需求与可部署性之间的权衡关系。表现最优的CNN模型(DenseNet-201)已集成至Hugging Face Gradio Space,实现了实时野外应用,展示了在保护场景中部署轻量化模型的可行性。本研究通过提供模型选择、数据集准备及负责任地部署深度学习工具于野生动物保护的实际见解,为扎根非洲的AI研究做出了贡献。

7月29日
7月30日