ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

1

VLA-Adapter:微型视觉-语言-动作模型的高效范式
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

Sep 11
ByYihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang
162
4

视觉-语言-动作(VLA)模型通常通过在机器人数据上预训练大规模视觉-语言模型(VLM)来弥合感知空间与动作空间之间的鸿沟。尽管这种方法显著提升了性能,但也带来了高昂的训练成本。本文探讨了如何有效桥接视觉-语言(VL)表征与动作(A)。我们提出了VLA-Adapter,一种旨在减少VLA模型对大规模VLM和广泛预训练依赖的新范式。为此,我们首先系统分析了各种VL条件的有效性,并揭示了哪些条件对于连接感知与动作空间至关重要。基于这些洞见,我们设计了一个轻量级的策略模块,配备桥接注意力机制,能够自主地将最优条件注入动作空间。由此,我们的方法仅需0.5B参数的骨干网络,无需任何机器人数据预训练,即可实现高性能。在仿真及真实世界机器人基准上的大量实验表明,VLA-Adapter不仅达到了最先进的性能水平,还提供了迄今为止最快的推理速度。此外,得益于所提出的先进桥接范式,VLA-Adapter使得在单个消费级GPU上仅需8小时即可训练出强大的VLA模型,大大降低了部署VLA模型的门槛。项目页面:https://vla-adapter.github.io/。

2

HuMo:通过协作多模态条件实现以人为中心的视频生成
HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

Sep 10
ByLiyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
98
4

以人为中心的视频生成(HCVG)方法旨在从多模态输入(包括文本、图像和音频)中合成人类视频。现有方法在有效协调这些异质模态方面面临两大挑战:一是缺乏包含配对三元组条件的训练数据,二是在多模态输入下难以协同主体保持与音视频同步这两个子任务。本研究提出了HuMo,一个用于协同多模态控制的统一HCVG框架。针对第一个挑战,我们构建了一个高质量数据集,其中包含多样化的配对文本、参考图像和音频。对于第二个挑战,我们提出了一种两阶段渐进式多模态训练范式,并采用任务特定策略。在主体保持任务中,为了维持基础模型的提示跟随和视觉生成能力,我们采用了最小侵入性的图像注入策略。在音视频同步任务中,除了常用的音频交叉注意力层外,我们提出了一种“预测聚焦”策略,隐式引导模型将音频与面部区域关联起来。为了跨多模态输入的联合可控性学习,基于先前获得的能力,我们逐步整合音视频同步任务。在推理阶段,为了实现灵活且细粒度的多模态控制,我们设计了一种时间自适应的无分类器引导策略,动态调整去噪步骤中的引导权重。大量实验结果表明,HuMo在子任务上超越了专门的先进方法,为协同多模态条件下的HCVG建立了一个统一框架。项目页面:https://phantom-video.github.io/HuMo。

3

SimpleVLA-RL:通过强化学习扩展视觉语言动作模型的训练规模
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

Sep 11
ByHaozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding
65
2

视觉-语言-动作(VLA)模型近期作为机器人操控的强大范式崭露头角。尽管大规模预训练与监督微调(SFT)带来了显著进展,这些模型仍面临两大根本挑战:一是SFT扩展所需的大规模人类操作机器人轨迹数据稀缺且成本高昂;二是对涉及分布偏移的任务泛化能力有限。大型推理模型(LRMs)的最新突破表明,强化学习(RL)能显著提升逐步推理能力,这自然引出一个问题:RL能否同样改善VLA模型的长期逐步动作规划?本研究中,我们提出了SimpleVLA-RL,一个专为VLA模型设计的高效RL框架。基于veRL,我们引入了VLA特有的轨迹采样、可扩展并行化、多环境渲染及优化损失计算。应用于OpenVLA-OFT时,SimpleVLA-RL在LIBERO上达到了SoTA性能,甚至在我们引入的探索增强策略下,于RoboTwin 1.0&2.0上超越了pi_0。SimpleVLA-RL不仅减少了对大规模数据的依赖,实现了稳健的泛化,还在实际任务中显著超越了SFT。此外,我们在RL训练过程中发现了一种新现象“pushcut”,即策略发现了先前训练过程中未见的新模式。Github: https://github.com/PRIME-RL/SimpleVLA-RL

4

EchoX:通过回声训练缓解语音到语音大语言模型中的声学-语义鸿沟
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

Sep 11
ByYuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
55
3

语音到语音大语言模型(SLLMs)正日益受到关注。源自于文本大语言模型(LLMs)的SLLMs,往往在知识和推理能力上表现出退化。我们推测,这一局限源于当前SLLMs的训练范式未能弥合特征表示空间中的声学-语义鸿沟。为解决此问题,我们提出了EchoX,它利用语义表示并动态生成语音训练目标。该方法融合了声学与语义学习,使EchoX作为语音LLM能够保持强大的推理能力。实验结果显示,EchoX在约六千小时的训练数据基础上,在多个基于知识的问答基准测试中取得了领先性能。项目详情可访问https://github.com/FreedomIntelligence/EchoX。

5

机器学习语言模型(MachineLearningLM):通过在数百万个合成表格预测任务上持续预训练语言模型,实现了上下文机器学习能力的规模化提升。
MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML

Sep 8
ByHaoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke
52
3

大型语言模型(LLMs)虽具备广泛的世界知识与强大的通用推理能力,但在标准机器学习(ML)任务中,它们难以通过上下文学习(ICL)从大量示例中汲取知识,即在不依赖梯度下降的情况下,仅凭上下文演示实现多示例学习。为此,我们推出了MachineLearningLM,一个便携式的持续预训练框架,旨在赋予通用LLM强大的上下文ML能力,同时保留其广泛的知识与推理能力,以适应更广泛的对话工作流。 我们的预训练流程通过合成来自数百万结构因果模型(SCMs)的ML任务,涵盖示例数量多达1,024个。我们首先采用随机森林作为教师模型,将基于树的决策策略蒸馏至LLM中,以增强其在数值建模中的鲁棒性。所有任务均通过一种高效的提示序列化方法处理,使得每个上下文窗口内可容纳3至6倍多的示例,并通过批量推理实现高达50倍的摊销吞吐量。 尽管采用了一个相对简单的配置(Qwen-2.5-7B-Instruct配合LoRA秩8),MachineLearningLM在金融、物理、生物及医疗领域的分布外表格分类任务上,平均超越强基线LLM(如GPT-5-mini)约15%。它展现出了显著的多示例扩展规律:随着上下文演示从8增至1,024,准确率单调上升。无需任何任务特定训练,它便能在数百个示例上达到随机森林级别的准确率。同时,其通用对话能力,包括知识与推理,得以保持:在MMLU测试中取得了75.4%的成绩。

6

Kling-Avatar:基于多模态指令的级联式长时程虚拟角色动画合成框架
Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

Sep 11
ByYikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
41
2

近期,音频驱动虚拟形象视频生成技术取得了显著进展,极大地提升了视听真实感。然而,现有方法仅将指令条件视为由声学或视觉线索驱动的低级追踪,未能建模指令所传达的交流意图。这一局限削弱了其叙事连贯性与角色表现力。为弥合此差距,我们提出了Kling-Avatar,一个创新的级联框架,它统一了多模态指令理解与超写实肖像生成。我们的方法采用两阶段流程:第一阶段,我们设计了一个多模态大语言模型(MLLM)导演,基于多样指令信号生成蓝图视频,从而掌控角色动作与情感等高层语义;第二阶段,在蓝图关键帧的引导下,采用首尾帧策略并行生成多个子片段。这一从全局到局部的框架在精细保留细节的同时,忠实编码了多模态指令背后的高层意图。我们的并行架构还实现了长视频的快速稳定生成,使其适用于数字人直播和视频博客等实际应用。为全面评估我们的方法,我们构建了一个包含375个精选样本的基准测试集,涵盖多样指令与挑战性场景。大量实验表明,Kling-Avatar能够生成生动流畅、长达1080p分辨率、48帧每秒的视频,在唇形同步精度、情感与动态表现力、指令可控性、身份保持及跨域泛化能力上均表现出色。这些成果确立了Kling-Avatar作为语义基础、高保真音频驱动虚拟形象合成的新标杆。

7

驾驭不确定性:面向长程LLM智能体的熵调制策略梯度
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

Sep 11
ByJiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
36
2

在长期任务中,基于大语言模型(LLMs)的智能体面临一个重大挑战:稀疏的、基于结果的奖励使得难以对中间步骤进行信用分配。以往的方法主要集中于通过传统强化学习技术(如逆强化学习)或使用过程奖励模型提供逐步反馈,来创建密集的奖励信号以指导学习。本文中,我们揭示了LLMs学习动态中的一个根本问题:策略梯度的大小与熵本质上是耦合的,这导致对自信正确动作的更新效率低下,而对不确定动作的大幅更新可能引发不稳定。为解决这一问题,我们提出了熵调制策略梯度(EMPG),该框架基于步骤间的不确定性和最终任务结果重新校准学习信号。EMPG放大对自信正确动作的更新,惩罚自信错误,并减弱来自不确定步骤的更新以稳定探索。此外,我们引入了一个未来清晰度奖励项,鼓励智能体寻找更具可预测性的解决路径。通过在WebShop、ALFWorld和Deep Search这三个具有挑战性的智能体任务上的全面实验,我们证明EMPG实现了显著的性能提升,并大幅超越了强大的策略梯度基线。项目页面位于https://empgseed-seed.github.io/。

8

FLUX-Reason-6M与PRISM-Bench:百万级图文推理数据集与综合基准测试
FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

Sep 11
ByRongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
34
2

开源文本生成图像(T2I)模型的进步一直受到大规模、以推理为核心的数据集及全面评估基准缺失的制约,导致其与领先的闭源系统之间存在性能差距。为应对这一挑战,我们推出了FLUX-Reason-6M和PRISM-Bench(精确与鲁棒的图像合成测量基准)。FLUX-Reason-6M是一个包含600万张高质量FLUX生成图像及2000万条双语(中英文)描述的大规模数据集,专为教授复杂推理而设计。这些图像依据六大关键特性组织:想象力、实体、文本渲染、风格、情感与构图,并设计了显式的生成思维链(GCoT)以提供图像生成步骤的详细分解。整个数据整理过程耗费了15,000个A100 GPU天,为社区提供了以往仅大型工业实验室才能获取的资源。PRISM-Bench则提出了一个包含七个独特赛道的新颖评估标准,其中包括使用GCoT的艰巨长文本挑战。通过精心设计的提示,它利用先进的视觉语言模型进行细致入微、与人类对齐的提示-图像对齐度及图像美学评估。我们对19个领先模型在PRISM-Bench上的广泛评估揭示了关键性能差距,并指出了需要改进的具体领域。我们的数据集、基准及评估代码已公开发布,旨在推动下一波以推理为导向的T2I生成研究。项目页面:https://flux-reason-6m.github.io/。

9

理解与生成能否真正相互促进——抑或仅是共存?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

Sep 11
ByZhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
26
2

本文通过自编码器视角引入了一个富有洞察力的范式:将理解过程视为编码器(I2T),将图像压缩为文本;将生成过程视为解码器(T2I),从文本重建图像。以重建保真度作为统一的训练目标,我们强化了理解与生成过程之间的双向信息流,实现了相互增益。为此,我们提出了UAE,一个新颖的统一多模态学习框架。首先,我们利用大规模长上下文图像描述对解码器进行预训练,以捕捉细粒度语义和复杂空间关系。随后,我们提出了基于强化学习(RL)的Unified-GRPO,涵盖三个阶段:(1)冷启动阶段,通过语义重建损失温和初始化编码器和解码器;(2)理解促进生成阶段,训练编码器生成信息丰富的描述,以最大化解码器的重建质量,增强其视觉理解能力;(3)生成促进理解阶段,优化解码器从这些描述中重建图像,迫使其利用每一个细节,提升其长上下文指令遵循和生成保真度。为评估模型,我们引入了Unified-Bench,这是首个专门用于评估统一多模态模型(UMMs)统一程度的基准。在多模态学习领域出现了一个令人惊喜的“顿悟时刻”:随着RL的推进,编码器自主生成更具描述性的文本,而解码器同时展现出深刻理解这些复杂描述的能力,从而实现了惊人的重建保真度。

10

SpatialVID:一个带有空间标注的大规模视频数据集
SpatialVID: A Large-Scale Video Dataset with Spatial Annotations

Sep 11
ByJiahao Wang, Yufeng Yuan, Rujie Zheng, Youtian Lin, Jian Gao, Lin-Zhuo Chen, Yajie Bao, Yi Zhang, Chang Zeng, Yanxi Zhou, Xiaoxiao Long, Hao Zhu, Zhaoxiang Zhang, Xun Cao, Yao Yao
19
2

在空间智能领域,包括空间重建与世界探索两方面,已取得显著进展。然而,当前模型的可扩展性和现实世界保真度仍因大规模、高质量训练数据的匮乏而受到严重限制。尽管已有若干数据集提供了相机姿态信息,但这些数据集在规模、多样性及标注丰富度上普遍受限,尤其是针对具有真实相机运动的现实世界动态场景。为此,我们收集了SpatialVID数据集,该数据集包含大量野外拍摄的视频,涵盖多样场景、相机运动,并附有密集的三维标注,如逐帧相机姿态、深度及运动指令。具体而言,我们采集了超过21,000小时的原始视频,通过层级过滤流程处理成270万段视频片段,总计7,089小时的动态内容。后续的标注流程进一步丰富了这些片段,提供了包括相机姿态、深度图、动态掩码、结构化描述及序列化运动指令在内的详细空间与语义信息。对SpatialVID数据统计的分析显示,其丰富性与多样性直接促进了模型泛化能力与性能的提升,使其成为视频与三维视觉研究领域的重要资源。

11

CDE:面向大规模语言模型高效强化学习的好奇心驱动探索
CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

Sep 11
ByRunpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu
18
1

基于可验证奖励的强化学习(RLVR)是提升大语言模型(LLMs)推理能力的一种强大范式。然而,当前的RLVR方法在探索方面表现欠佳,常导致过早收敛和熵崩溃。为解决这一挑战,我们引入了好奇心驱动探索(CDE)框架,该框架利用模型自身的内在好奇心来引导探索。我们通过来自执行者和评价者的信号形式化好奇心:对于执行者,我们使用其生成响应的困惑度;对于评价者,我们采用多头架构中价值估计的方差。这两种信号在RLVR框架内作为探索奖励,以指导模型。我们的理论分析表明,执行者层面的奖励本质上惩罚了过度自信的错误,并促进了正确回答的多样性;此外,我们将评价者层面的奖励与强化学习中已确立的基于计数的探索奖励联系起来。实证结果显示,在AIME基准测试中,相较于使用GRPO/PPO的标准RLVR方法,我们的方法实现了约+3分的提升。进一步分析揭示了RLVR中的校准崩溃机制,为常见的LLM失效模式提供了新的见解。

12

AU-Harness:一款用于音频大语言模型全面评估的开源工具包
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

Sep 9
BySidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
18
3

大型音频语言模型(LALMs)正迅速发展,但由于评估工具包效率低下,限制了公平比较和系统化评估,其评估仍面临挑战。现有框架存在三个关键问题:处理速度慢,制约了大规模研究;提示不一致,损害了可复现性;任务覆盖范围窄,遗漏了重要的音频推理能力。我们推出了AU-Harness,一个高效且全面的LALMs评估框架。通过优化的批处理和并行执行,我们的系统比现有工具包提速高达127%,使得之前难以实现的大规模评估成为可能。我们提供了标准化的提示协议和灵活的配置,确保在不同场景下进行公平的模型比较。此外,我们引入了两个新的评估类别:LLM自适应对话分割,用于时间音频理解;以及口语语言推理,用于复杂的基于音频的认知任务。通过对380多个任务的评估,我们揭示了当前LALMs在时间理解和复杂口语语言推理任务上的显著不足。我们的发现还指出,音频基准测试中指令模态缺乏标准化,这可能导致在复杂的指令跟随下游任务上性能差异高达9.5个绝对百分点。AU-Harness不仅提供了实用的评估工具,还深入剖析了模型的局限性,推动了LALMs的系统化发展。

13

mmBERT:一种采用退火语言学习的现代多语言编码器
mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

Sep 8
ByMarc Marone, Orion Weller, William Fleshman, Eugene Yang, Dawn Lawrie, Benjamin Van Durme
9
2

仅编码器语言模型广泛应用于各类标准机器学习任务,包括分类与检索。然而,近期针对编码器模型的研究,尤其是多语言模型领域,相对匮乏。我们推出了mmBERT,这是一个仅编码器的语言模型,预训练于超过1800种语言的3万亿个多语言文本标记上。在构建mmBERT的过程中,我们引入了多项创新元素,如逆掩码比率调度和逆温度采样比率。我们仅在衰减阶段向数据集中加入了超过1700种低资源语言,结果表明,此举显著提升了模型性能,并最大化利用了相对有限的训练数据带来的收益。尽管这些低资源语言仅在短暂的衰减阶段被纳入,mmBERT在分类任务上的表现已与OpenAI的o3和Google的Gemini 2.5 Pro等模型相当。总体而言,我们证明mmBERT在分类和检索任务上,无论是高资源还是低资源语言,均显著超越了前一代模型。

14

可视化编程:图表中“代码即思维”指南
Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

Sep 11
ByBohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
8
2

图表理解对视觉-语言模型(VLMs)的推理能力提出了严峻考验。先前的方法存在显著局限:一些依赖外部工具,使其脆弱且受限于预定义的工具集;另一些则微调专用模型,这些模型通常采用单一的推理策略,如基于文本的链式思维(CoT)。基于文本推理的中间步骤难以验证,这增加了利用奖励事实准确性的强化学习信号的复杂性。为解决这一问题,我们提出了一种“代码即思维”(CaT)方法,将图表的视觉信息以可验证的符号格式表示。我们的核心见解是,这一策略必须具备适应性:固定的纯代码实现在符号表示不适宜的复杂图表上屡屡失败。这一发现促使我们引入“视觉可编程性”:一种可学习的属性,用于判断图表-问题对更适合通过代码还是直接视觉分析来解决。我们在一个自适应框架中实现了这一概念,其中VLM学习在CaT路径与直接视觉推理路径之间做出选择。模型的选择策略通过一种新颖的双重奖励系统进行强化学习训练。该系统结合了数据准确性奖励,使模型基于事实并防止数值幻觉,以及决策奖励,教导模型何时使用每种策略,避免其默认单一推理模式。实验表明,在多样化的图表理解基准测试中,我们的方法展现出强大且稳健的性能。我们的工作表明,VLM不仅能被教会如何推理,还能动态选择每项任务的最优推理路径。

15

基于视觉-语言模型的第一人称多视角场景空间推理
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

Sep 8
ByMohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
8
2

理解三维空间关系仍是当前视觉-语言模型(VLMs)的主要局限。先前的研究通过创建基于单张图像或室内视频的空间问答(QA)数据集来解决这一问题。然而,现实世界中的具身AI代理,如机器人和自动驾驶汽车,通常依赖于以自我为中心的多视角观测。为此,我们引入了Ego3D-Bench,这是一个旨在利用以自我为中心的多视角户外数据评估VLMs空间推理能力的新基准。Ego3D-Bench包含超过8,600个QA对,通过大量人工标注者的参与确保质量和多样性。我们对包括GPT-4o、Gemini1.5-Pro、InternVL3和Qwen2.5-VL在内的16个最先进的VLMs进行了基准测试。结果显示,人类水平得分与VLMs表现之间存在显著差距,表明当前VLMs在空间理解上仍未能达到人类水平。为弥合这一差距,我们提出了Ego3D-VLM,一个后训练框架,旨在增强VLMs的三维空间推理能力。Ego3D-VLM基于估计的全局三维坐标生成认知地图,使多项选择QA平均提升12%,绝对距离估计平均提升56%。Ego3D-VLM模块化设计,可与任何现有VLM集成。Ego3D-Bench与Ego3D-VLM共同为推进现实世界多视角环境中人类水平空间理解提供了宝贵工具。

16

基于梯度注意力引导的双掩码协同框架,实现鲁棒的文本行人检索
Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

Sep 11
ByTianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
6
2

尽管对比语言-图像预训练(CLIP)在多种视觉任务中展现出卓越性能,但其在人物表征学习中的应用面临两大关键挑战:(一)专注于人物中心图像的大规模标注视觉-语言数据稀缺;(二)全局对比学习固有的局限性,难以在保持对细粒度匹配至关重要的局部特征的同时,易受噪声文本标记的影响。本研究通过数据构建与模型架构的协同优化,推动了CLIP在人物表征学习中的进步。首先,我们开发了一种抗噪数据构建流程,利用多模态大模型(MLLMs)的上下文学习能力,自动筛选并标注网络来源的图像,从而创建了WebPerson——一个包含500万高质量人物中心图像-文本对的大规模数据集。其次,我们提出了梯度注意力引导的双掩码协同(GA-DMS)框架,该框架基于梯度-注意力相似度评分自适应地掩码噪声文本标记,提升了跨模态对齐效果。此外,我们引入了掩码标记预测目标,迫使模型预测信息丰富的文本标记,从而增强了细粒度语义表征学习。大量实验表明,GA-DMS在多个基准测试中均达到了最先进的性能水平。

17

基于语义对齐的二维高斯泼溅图像修复方法
2D Gaussian Splatting with Semantic Alignment for Image Inpainting

Sep 2
ByHongyu Li, Chaofeng Chen, Xiaoming Li, Guangming Lu
5
2

高斯泼溅(Gaussian Splatting, GS)作为一种将离散点转换为连续空间表示的新近技术,在三维场景建模与二维图像超分辨率领域已展现出显著成效。本文中,我们深入探讨了其在图像修复这一要求局部像素合成连贯性与全局语义恢复一致性任务中的未开发潜力。我们首次提出了基于二维高斯泼溅的图像修复框架,该框架将不完整图像编码为二维高斯泼溅系数的连续场,并通过可微分的光栅化过程重建最终图像。高斯泼溅的连续渲染范式本质上促进了修复结果在像素层面的连贯性。为提升效率与可扩展性,我们引入了一种分块光栅化策略,有效降低了内存开销并加速了推理过程。针对全局语义一致性,我们整合了预训练DINO模型的特征。我们发现,DINO的全局特征对小面积缺失区域天然具有鲁棒性,并能有效适应于指导大掩码场景下的语义对齐,确保修复内容与周围场景在上下文上保持一致。在标准基准上的大量实验表明,我们的方法在定量指标与感知质量上均达到了竞争性表现,为高斯泼溅应用于二维图像处理开辟了新的方向。

18

LoCoBench:面向复杂软件工程的长上下文大语言模型基准测试
LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

Sep 11
ByJielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
3
2

随着上下文窗口扩展至数百万token的长上下文语言模型的出现,为复杂的代码理解和软件开发评估创造了新的机遇。我们提出了LoCoBench,这是一个专门设计用于评估长上下文大语言模型(LLM)在现实复杂软件开发场景中的综合基准。与现有专注于单函数补全或短上下文任务的代码评估基准不同,LoCoBench填补了长上下文能力评估的关键空白,这些能力要求理解整个代码库、跨多个文件进行推理,并在大规模软件系统中保持架构一致性。我们的基准提供了系统生成的8,000个评估场景,涵盖10种编程语言,上下文长度从10K到1M token不等,100倍的跨度使得在现实软件开发环境中精确评估长上下文性能下降成为可能。LoCoBench引入了8个任务类别,捕捉了长上下文能力的核心:架构理解、跨文件重构、多会话开发、缺陷调查、功能实现、代码理解、集成测试和安全分析。通过一个五阶段的流程,我们创建了多样化的高质量场景,挑战LLM在空前规模上对复杂代码库进行推理的能力。我们引入了一个包含17个指标的综合评估框架,涵盖4个维度,其中包括8个新的评估指标,综合为LoCoBench评分(LCBS)。我们对最先进的长上下文模型的评估揭示了显著的性能差距,表明在复杂软件开发中的长上下文理解仍是一个亟待解决的重大挑战,需要更多关注。LoCoBench已发布于:https://github.com/SalesforceAIResearch/LoCoBench。

19

ObjectReact:学习面向物体的相对控制以实现视觉导航
ObjectReact: Learning Object-Relative Control for Visual Navigation

Sep 11
BySourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
3
1

仅凭单一摄像头和拓扑地图进行视觉导航,近来已成为一种颇具吸引力的替代方案,相较于依赖额外传感器和三维地图的传统方法。这一进展通常通过“图像相对”的方式实现,即从当前观测图像与目标子图像对中估计控制指令。然而,世界在图像层面的表达存在局限,因为图像严格受限于智能体的姿态与具体形态。相比之下,作为地图属性的对象,则提供了一种不受具体形态和轨迹影响的世界表征。本研究中,我们提出了一种学习“对象相对”控制的新范式,展现出多项优势:a) 无需严格模仿过往经验即可探索新路径,b) 控制预测问题可与图像匹配问题解耦,c) 在跨具体形态部署时,面对训练-测试及地图构建-执行场景的差异,能实现高度不变性。我们提出了一种“相对”三维场景图形式的拓扑度量地图表示,用于获取更具信息量的对象级全局路径规划成本。我们训练了一个名为“ObjectReact”的局部控制器,直接基于高级“路径对象成本图”表示进行条件化,从而无需显式RGB输入。我们展示了在传感器高度变化及多项挑战空间理解能力的导航任务中(例如,沿地图轨迹反向导航),学习对象相对控制相较于图像相对控制的优势。此外,我们还证明了仅基于模拟的策略能够良好泛化至现实世界的室内环境。代码及补充材料可通过项目页面访问:https://object-react.github.io/

20

OmniEVA:基于任务自适应三维基础与具身感知推理的通用规划器
OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

Sep 11
ByYuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
3
2

近期,多模态大语言模型(MLLMs)的进展为具身智能开辟了新机遇,使其能够实现多模态理解、推理与交互,以及连续的空间决策。然而,当前基于MLLM的具身系统面临两大关键局限。首先,几何适应性差距:仅依赖2D输入训练或硬编码3D几何注入的模型,要么空间信息不足,要么2D泛化受限,导致在面对不同空间需求的任务时适应性差。其次,具身约束差距:先前研究常忽视真实机器人的物理限制与能力,致使任务计划虽理论可行却实际难以执行。为填补这些空白,我们推出了OmniEVA——一款具身多功能规划器,通过两项关键创新实现高级具身推理与任务规划:(1) 任务自适应的3D基础机制,引入门控路由器,根据上下文需求对3D融合进行显式选择性调节,为多样具身任务提供情境感知的3D基础。(2) 具身感知推理框架,将任务目标与具身约束共同纳入推理循环,生成既目标导向又可执行的规划决策。大量实验结果表明,OmniEVA不仅在通用具身推理性能上达到业界领先,还在广泛下游场景中展现出强大能力。对一系列提出的具身基准测试的评估,包括基础与复合任务,均证实了其稳健且多功能的规划能力。项目页面:https://omnieva.github.io

21

迈向更优牙科AI:全景X光分析的多模态基准与指令数据集
Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis

Sep 11
ByJing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
3
2

近期,大规模视觉语言模型(LVLMs)在通用医疗任务中展现出强劲性能。然而,其在牙科等专业领域的有效性仍待深入探索。特别是,全景X光片作为口腔放射学中广泛应用的成像方式,由于密集的解剖结构和细微的病理线索,其解读面临挑战,这些特征在现有医疗基准或指令数据集中未能充分体现。为此,我们推出了MMOral,首个专为全景X光片解读定制的大规模多模态指令数据集及基准。MMOral包含20,563张标注图像,配以130万条跨多种任务类型的指令跟随实例,涵盖属性提取、报告生成、视觉问答及基于图像的对话等。此外,我们提出了MMOral-Bench,一个覆盖牙科五大关键诊断维度的综合评估套件。我们在MMOral-Bench上评估了64个LVLMs,发现即便是表现最佳的模型,如GPT-4o,准确率也仅为41.45%,揭示了当前模型在该领域的显著局限。为促进该特定领域的进步,我们还提出了OralGPT,它基于Qwen2.5-VL-7B模型,利用我们精心策划的MMOral指令数据集进行监督微调(SFT)。值得注意的是,仅一次SFT周期便显著提升了LVLMs的性能,例如OralGPT实现了24.73%的提升。MMOral与OralGPT均具备作为智能牙科关键基石的巨大潜力,并有望推动牙科领域更具临床影响力的多模态AI系统发展。数据集、模型、基准及评估套件可通过https://github.com/isbrycee/OralGPT获取。

22

差异度选择:强化学习中可验证奖励下缓解多样性崩溃的关键被忽视因素
The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Sep 9
ByLong Li, Jiaran Hao, Jason Klein Liu, Zhijian Zhou, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi
2
2

在利用可验证奖励的强化学习(RLVR)对大型语言模型(LLMs)进行微调时,一个核心悖论是:尽管单次尝试准确率(Pass@1)有所提升,但多次尝试性能(Pass@k)却常常下降。这一现象往往伴随着灾难性遗忘,即模型丧失了先前习得的技能。尽管已有多种方法被提出,但作为主动解决方案,散度项的选择与作用却出人意料地未被深入探讨。我们认为,标准的RLVR目标——无论是采用模式寻求的反向KL散度,还是完全舍弃散度项——都缺乏一个关键的知识保留机制。反向KL通过收窄策略加速了这种性能衰退,而散度项的缺失则无法防止模型偏离其多样化的知识基础。我们提出了一种根本性的视角转变:将散度项本身作为解决方案。我们的框架——多样性保持混合强化学习(DPH-RL)——利用质量覆盖的f-散度(如正向KL和JS散度)作为复习机制。通过持续参考初始策略,该方法迫使模型保持广泛的解决方案覆盖。在数学和SQL生成任务上的大量实验表明,DPH-RL不仅解决了Pass@k的退化问题,还提升了域内外的Pass@1和Pass@k性能。此外,DPH-RL在训练效率上更优,因为它通过生成函数计算f-散度,仅需从初始策略中采样,无需在线参考模型。我们的工作强调了改进RLVR的一个关键且被忽视的维度,证明了正确选择散度度量是构建更通用、更多样化推理模型的有力工具。

23

基于Transformer的漏洞检测模型在开源与工业数据上的跨领域评估
Cross-Domain Evaluation of Transformer-Based Vulnerability Detection on Open & Industry Data

Sep 11
ByMoritz Mock, Thomas Forrer, Barbara Russo
1
2

学术界提出的深度学习漏洞检测方案并非总能被开发者直接采用,且其在工业环境中的适用性鲜有探讨。将此类技术从学术界迁移至工业界面临诸多挑战,包括可信度问题、遗留系统兼容性、数字素养局限以及学术与工业专业知识间的鸿沟。特别是对于深度学习而言,性能表现及与现有工作流的整合更是额外关切点。本研究首先评估了CodeBERT在检测工业与开源软件中易受攻击函数方面的性能表现,分析了其在开源数据上微调后对工业数据的跨领域泛化能力,反之亦然,并探索了处理类别不平衡的策略。基于这些结果,我们开发了AI-DO(自动化漏洞检测集成开发者操作),一个集成持续集成-持续部署(CI/CD)的推荐系统,它利用微调后的CodeBERT在代码审查过程中检测并定位漏洞,且不中断工作流程。最后,我们通过公司IT专业人员的调查评估了该工具的感知实用性。研究结果表明,基于工业数据训练的模型在同一领域内能准确检测漏洞,但在开源代码上性能下降;而采用适当欠采样技术、在开源数据上微调的深度学习模型,则提升了漏洞检测的效果。

24

多模态推荐中的多尺度双边注意力模态对齐
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation

Sep 11
ByKelin Ren, Chan-Yang Ju, Dong-Ho Lee
1
2

多模态推荐系统正日益成为电子商务和内容平台的基础技术,通过联合建模用户的历史行为与物品的多模态特征(如视觉与文本),实现个性化服务。然而,现有方法大多依赖静态融合策略或基于图的局部交互建模,面临两大关键局限:(1) 对细粒度跨模态关联的建模能力不足,导致融合质量欠佳;(2) 缺乏全局分布层面的一致性,引发表征偏差。为此,我们提出了MambaRec,一个通过注意力引导学习整合局部特征对齐与全局分布正则化的新颖框架。其核心是引入了扩张细化注意力模块(DREAM),该模块利用多尺度扩张卷积结合通道与空间注意力,对齐视觉与文本模态间的细粒度语义模式。此模块捕捉层次化关系与上下文感知关联,提升了跨模态语义建模能力。此外,我们应用最大均值差异(MMD)与对比损失函数约束全局模态对齐,增强语义一致性。这种双重正则化减少了模态特异性偏差,提升了鲁棒性。为提高可扩展性,MambaRec采用降维策略降低高维多模态特征的计算成本。在真实世界电商数据集上的广泛实验表明,MambaRec在融合质量、泛化能力及效率上均优于现有方法。我们的代码已公开于https://github.com/rkl71/MambaRec。

25

只需一颗模糊大脑:基于大语言模型的自动化漏洞检测与修复系统
All You Need Is A Fuzzing Brain: An LLM-Powered System for Automated Vulnerability Detection and Patching

Sep 8
ByZe Sheng, Qingxiao Xu, Jianwei Huang, Matthew Woodcock, Heqing Huang, Alastair F. Donaldson, Guofei Gu, Jeff Huang
1
2

我们团队“All You Need Is A Fuzzing Brain”在DARPA的人工智能网络挑战赛(AIxCC)中跻身七强决赛,并最终获得第四名。比赛期间,我们开发了一套网络推理系统(CRS),该系统自主发现了现实世界开源C和Java项目中的28个安全漏洞——其中包括6个此前未知的零日漏洞——并成功修复了其中的14个。完整的CRS已在https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain开源。本文详细阐述了我们的CRS技术细节,重点介绍了其基于大语言模型(LLM)的组件与策略。基于AIxCC,我们进一步推出了一个公开排行榜,用于评估顶尖LLM在漏洞检测与修复任务上的表现,该排行榜数据源自AIxCC数据集。排行榜地址为https://o2lab.github.io/FuzzingBrain-Leaderboard/。

26

推理机制虽催生了新型投毒攻击,却也使其复杂度显著提升。
Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

Sep 6
ByHanna Foerster, Ilia Shumailov, Yiren Zhao, Harsh Chaudhari, Jamie Hayes, Robert Mullins, Yarin Gal
1
3

针对大型语言模型(LLMs)的数据投毒攻击早期研究已表明,植入后门相对容易。近期,随着LLMs逐步引入分步推理机制,攻击面进一步扩大,涵盖了中间思维链(CoT)及其将问题分解为子问题的固有特性。利用这些途径进行更为隐蔽的投毒,我们提出了“分解式推理投毒”方法,其中攻击者仅修改推理路径,保持提示和最终答案的纯净,并将触发条件分散至多个单独无害的组件中。 有趣的是,尽管植入此类分解式投毒仍属可行,但可靠地激活它们以改变最终答案(而非仅影响CoT)却异常困难。这一困难源于模型往往能在其思维过程中从被激活的后门中恢复。最终,似乎一种后门鲁棒性的新兴形式正源自这些先进LLMs的推理能力,以及推理与最终答案生成之间的架构分离。

9月11日
9月12日