ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

1

反思、重试、奖励:通过强化学习实现大语言模型的自我提升
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

May 30
ByShelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh
267
8

我们探索了一种通过自我反思和强化学习来提升大型语言模型性能的方法。通过激励模型在回答错误时生成更好的自我反思,我们证明了即使在无法生成合成数据且仅能获得二元反馈的情况下,模型解决复杂可验证任务的能力也能得到增强。我们的框架分为两个阶段:首先,当模型未能完成给定任务时,它会生成一段自我反思性评论,分析其先前的尝试;其次,模型在自我反思的背景下再次尝试该任务。如果后续尝试成功,则在自我反思阶段生成的标记将获得奖励。实验结果显示,在各种模型架构上均取得了显著的性能提升,其中数学方程书写任务最高提升了34.7%,函数调用任务提升了18.1%。值得注意的是,经过微调的小型模型(15亿至70亿参数)在相同系列中超越了规模是其10倍的更大模型。因此,这一新颖范式为开发出在有限外部反馈下能够自我改进、应对挑战性任务的更有用且可靠的语言模型开辟了一条令人兴奋的道路。

2

UniWorld:面向统一视觉理解与生成的高分辨率语义编码器
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Jun 3
ByBin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan
58
2

尽管现有的统一模型在视觉-语言理解和文本到图像生成方面表现出色,但其在探索图像感知与操控任务上存在局限,而这些任务正是用户广泛应用的迫切需求。近期,OpenAI发布了其强大的GPT-4o-Image模型,用于全面的图像感知与操控,展现了卓越的表达能力并引发了社区的高度关注。通过在我们精心设计的实验中观察GPT-4o-Image的表现,我们推断该模型利用了语义编码器提取的特征而非变分自编码器(VAE),而VAE在许多图像操控模型中被视为核心组件。受此启发,我们提出了一个名为UniWorld的统一生成框架,该框架基于强大的视觉-语言模型和对比语义编码器提供的语义特征。结果表明,我们仅使用BAGEL数据量的1%便构建了一个强大的统一模型,在图像编辑基准测试中持续超越BAGEL。同时,UniWorld在图像理解与生成能力上保持竞争力,在多项图像感知任务中均取得了优异表现。我们全面开源了模型,包括模型权重、训练与评估脚本以及数据集。

3

VS-Bench:评估视觉语言模型在多智能体环境中的战略推理与决策能力
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

Jun 3
ByZelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang
57
3

近期,视觉语言模型(VLMs)的进展已将其能力扩展至交互式代理任务,然而现有基准仍局限于单代理或纯文本环境。相比之下,现实场景往往涉及多个代理在丰富的视觉与语言环境中互动,这带来了多模态观察与策略交互的双重挑战。为弥合这一差距,我们推出了视觉策略基准(VS-Bench),这是一个多模态基准,用于评估VLMs在多代理环境中的策略推理与决策能力。VS-Bench包含八个基于视觉的环境,涵盖合作、竞争及混合动机的交互,旨在评估代理预测他人未来行动并优化长期目标的能力。我们考虑了两个互补的评估维度:通过下一动作预测准确率进行策略推理的离线评估,以及通过标准化回合回报进行决策的在线评估。对十四种领先VLMs的广泛实验显示,当前模型与最优性能之间存在显著差距,最佳模型的预测准确率为47.8%,标准化回报为24.3%。我们进一步深入分析了VLM代理的多模态观察、测试时扩展、社交行为及失败案例。通过标准化评估并凸显现有模型的局限,我们期望VS-Bench能成为未来策略多模态代理研究的基础。代码与数据可在https://vs-bench.github.io获取。

4

SynthRL:通过可验证数据合成扩展视觉推理能力
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Jun 2
ByZijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
51
2

通过可验证奖励的强化学习(RLVR)训练的视觉-语言模型(VLMs)在有效扩展测试时计算方面已展现出显著进展。本研究探讨了合成RL数据如何进一步提升RLVR效果。为此,我们提出了SynthRL——一个面向推理训练、可扩展且保证质量的自动数据扩展流程。SynthRL包含三个关键阶段:(1) 选择具有适当分布的种子问题,(2) 在保持原答案的同时,将其增强为更具挑战性的变体,以及(3) 一个确保近乎完美正确性和难度提升的验证阶段。我们的实证实验验证了SynthRL的可扩展性和有效性。应用于MMK12数据集时,SynthRL从约8K种子样本中合成了超过3.3K个可验证的、更具挑战性的问题。使用我们合成数据训练的模型在五个跨领域视觉数学推理基准测试中均取得了一致性提升,相较于仅使用种子数据训练的基线模型,改进尤为显著。特别值得注意的是,深入分析表明,这些增益在最具挑战性的评估样本上更为突出,这凸显了SynthRL在激发更深层次、更复杂推理模式方面的有效性。

5

GUI-Actor:面向GUI代理的无坐标视觉定位系统
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

Jun 3
ByQianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao
50
3

构建基于视觉语言模型(VLM)的图形用户界面(GUI)代理时,一个主要挑战是视觉定位,即根据视觉内容和文本计划,定位执行操作的适当屏幕区域。现有研究大多将其视为基于文本的坐标生成任务。然而,这些方法存在若干局限:空间语义对齐能力弱、难以处理模糊的监督目标,以及屏幕坐标的密集性与视觉变换器(Vision Transformers)等模型提取的粗粒度视觉特征之间的不匹配。本文提出GUI-Actor,一种基于VLM的无坐标GUI定位方法。其核心在于引入一个基于注意力的操作头,该操作头学习将专用的<ACTOR>标记与所有相关视觉块标记对齐,使模型能够在单次前向传播中提出一个或多个操作区域。为此,我们进一步设计了一个定位验证器,用于评估并选择最可行的操作区域进行执行。大量实验表明,GUI-Actor在多个GUI操作定位基准上均优于先前的最先进方法,且在未见过的屏幕分辨率和布局上展现出更好的泛化能力。值得注意的是,在ScreenSpot-Pro基准上,以Qwen2-VL和Qwen2.5-VL为骨干的GUI-Actor-7B分别取得了40.7和44.6的分数,超越了UI-TARS-72B(38.1)。此外,通过引入验证器,我们发现仅微调新引入的操作头(7B模型约1亿参数)而保持VLM骨干冻结,即可达到与先前最先进模型相当的性能,这表明GUI-Actor能够在不损害VLM通用能力的前提下,赋予其有效的定位能力。

6

CSVQA:面向视觉语言模型STEM推理能力评估的中文多模态基准
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

May 30
ByAi Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
49
4

视觉-语言模型(VLMs)在多模态理解方面取得了显著进展,但其科学推理能力仍缺乏充分评估。当前的多模态基准主要针对通用图像理解或文本驱动推理进行评估,缺少需要将领域特定知识与视觉证据分析相结合的真实科学场景。为填补这一空白,我们提出了CSVQA,一个专门设计用于通过领域扎根的视觉问答来评估科学推理的诊断性多模态基准。我们的基准包含1,378个精心构建的跨学科STEM问题-答案对,每个问题均要求具备领域知识、视觉证据整合及高阶推理能力。与以往的多模态基准相比,CSVQA更注重现实世界的科学内容与复杂推理。此外,我们提出了一套严格的评估协议,以系统性地检验模型预测是否基于经过筛选的解释而得到有效的中间推理步骤支持。我们对15个VLMs在该基准上的全面评估揭示了显著的性能差异,即便是排名最高的专有模型,其准确率也仅为49.6%。这一实证结果凸显了提升VLMs科学推理能力的迫切需求。我们的CSVQA已发布于https://huggingface.co/datasets/Skywork/CSVQA。

7

OmniSpatial:迈向视觉语言模型全面空间推理的基准测试
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Jun 3
ByMengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
38
2

空间推理是认知心理学的一个关键方面,也是当前视觉-语言模型(VLMs)面临的主要瓶颈。尽管已有大量研究致力于评估或提升VLMs对基本空间关系的理解,如区分左右、远近以及物体计数,这些任务仅代表了空间推理的最基础层次。在本研究中,我们引入了OmniSpatial,一个基于认知心理学的全面且具有挑战性的空间推理基准。OmniSpatial涵盖了四大类别:动态推理、复杂空间逻辑、空间交互及视角转换,细分为50个子类别。通过互联网数据爬取与精细的人工标注,我们构建了超过1500个问答对。广泛的实验表明,无论是开源还是闭源的VLMs,以及现有的推理与空间理解模型,在全面空间理解方面均表现出显著局限。我们进一步分析了失败案例,并提出了未来研究的潜在方向。

8

OThink-R1:内在快/慢思维模式切换以缓解过度推理
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Jun 3
ByShengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
36
2

近期先进的大型推理模型(LRMs)通过扩展的思维链(CoT)推理来解决复杂任务,取得了最先进的性能。尽管取得了成功,我们发现一个关键问题:LRMs解决的大量简单任务,非推理型大语言模型(LLMs)也能以显著更少的token完成,这表明复杂的推理并非总是必要。针对这一问题,我们系统分析了LRMs的推理轨迹,并提出一种方法,利用识别出的范式及LLM-Judge将这些轨迹分类为冗余推理或必要推理。我们进一步引入了OThink-R1,该方法在保持逻辑有效性的同时,剪枝冗余推理步骤。OThink-R1动态地对简单问题采用非思考模式(快速思考),而对复杂问题则进行深思熟虑(慢速思考)。在数学和问答任务上的实验表明,OThink-R1平均减少了近23%的推理冗余,且不牺牲准确性,为高效推理模型提供了实用指导。代码已发布于https://github.com/AgenticIR-Lab/OThink-R1。

9

FinMME:金融多模态推理评估基准数据集
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

May 30
ByJunyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
36
3

近年来,多模态大语言模型(MLLMs)发展迅速。然而,在金融领域,显著缺乏有效且专业的多模态评估数据集。为推进MLLMs在金融领域的发展,我们推出了FinMME,涵盖18个金融领域和6种资产类别中的超过11,000个高质量金融研究样本,包含10种主要图表类型及21种子类型。我们通过20名标注员和精心设计的验证机制确保数据质量。此外,我们开发了FinScore评估系统,结合幻觉惩罚和多维度能力评估,以提供公正的评价。大量实验结果表明,即便是GPT-4o等顶尖模型在FinMME上的表现也不尽如人意,凸显了其挑战性。该基准在不同提示下的预测波动保持在1%以下,展现出高鲁棒性,相较于现有数据集具有更优的可靠性。我们的数据集和评估协议可在https://huggingface.co/datasets/luojunyu/FinMME和https://github.com/luo-junyu/FinMME获取。

10

视觉具身大脑:让多模态大语言模型在空间中观察、思考与控制
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

May 30
ByGen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu
34
5

多模态大语言模型(MLLMs)的显著进展,正吸引着越来越多的关注,以将其扩展至如腿式机器人等物理实体。这通常要求MLLMs不仅掌握多模态理解能力,还需整合视觉空间推理与物理交互能力。然而,现有方法因这些能力本质上的差异而难以统一。本文提出了视觉具身大脑(VeBrain),一个面向现实世界感知、推理与控制的统一框架。VeBrain将机器人控制重构为二维视觉空间中的通用文本型MLLM任务,从而统一了不同任务的目标与映射空间。随后,提出了一种新颖的机器人适配器,将MLLMs生成的文本控制信号转换为真实机器人的运动策略。从数据角度出发,我们进一步引入了VeBrain-600k,一个高质量指令数据集,涵盖了VeBrain的多种能力。在VeBrain-600k中,我们耗费数百小时收集、整理并标注数据,采用多模态思维链(CoT)将不同能力融合于单一对话中。在13个多模态基准和5个空间智能基准上的广泛实验表明,VeBrain相较于Qwen2.5-VL等现有MLLMs展现出卓越性能。当部署至腿式机器人与机械臂时,VeBrain相比现有方法显示出更强的适应性、灵活性与组合能力。例如,与Qwen2.5-VL相比,VeBrain不仅在MMVet上实现了+5.6%的显著提升,还在腿式机器人任务中平均增益高达+50%。

11

DINGO:面向扩散式大语言模型的约束推理
DINGO: Constrained Inference for Diffusion LLMs

May 29
ByTarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
31
2

扩散式大语言模型(Diffusion LLMs)作为传统自回归大语言模型的有力替代方案崭露头角,展现出显著提升运行时效率的潜力。然而,现有扩散模型无法可证明地强制执行用户指定的形式约束,如正则表达式,这使得它们在需要结构化输出的任务(如固定模式JSON生成)中显得不可靠。与自回归模型逐词生成不同,扩散式大语言模型并行预测一组词元。这种并行性使得传统的约束解码算法——专为顺序词元预测设计——在保持真实输出分布方面效果不佳。为解决这一局限,我们提出了DINGO,一种基于动态规划的高效且可证明保持分布的约束解码策略。DINGO能够在模型预测分布下以最高概率采样输出字符串,同时严格满足任何用户指定的正则表达式。在标准符号数学和JSON生成基准测试中,DINGO相比无约束推理实现了高达68个百分点的性能提升。

12

MotionSight:增强多模态大语言模型中的细粒度运动理解能力
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Jun 2
ByYipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai
28
2

尽管多模态大语言模型(MLLMs)取得了进展,其在细粒度视频运动理解方面的能力仍存在显著局限。这些模型往往缺乏帧间差异分析,倾向于平均或忽略细微的视觉线索。此外,虽然视觉提示在静态图像中展现了潜力,但其在视频时间复杂性中的应用,尤其是针对细粒度运动理解,仍大多未被探索。我们探究是否能够解锁内在能力,以增强MLLMs的运动感知,并生成独特的视觉特征,用于解耦物体与相机运动线索。在本研究中,我们提出了MotionSight,一种创新的零样本方法,率先采用以物体为中心的视觉聚焦和运动模糊作为视觉提示,无需训练即可有效提升细粒度运动理解。为将其转化为宝贵的数据资产,我们构建了MotionVid-QA,这是首个面向细粒度视频运动理解的大规模数据集,包含层次化标注,如SFT和偏好数据,约40K个视频片段及87K个问答对。实验表明,MotionSight在开源性能上达到顶尖水平,并与商业模型相媲美。特别是在细粒度运动理解方面,我们提出了一种新颖的零样本技术及一个大规模、高质量的数据集。所有代码与标注将公开提供。

13

机器人R1:强化学习赋能机器人具身推理能力提升
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

May 29
ByDongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
28
2

大型视觉语言模型(LVLMs)近期在结合具身推理与机器人控制以推动机器人技术发展方面展现出巨大潜力。一种常见的方法是通过监督微调(SFT)训练与机器人控制相关的具身推理任务。然而,SFT数据集往往基于启发式构建,并未明确针对提升机器人控制进行优化。此外,SFT常导致灾难性遗忘和泛化性能下降等问题。为解决这些局限,我们提出了Robot-R1,一个利用强化学习专门增强机器人控制具身推理能力的新框架。Robot-R1学习预测完成任务所需的下一关键点状态,这一预测基于当前场景图像及从专家演示中提取的环境元数据。受DeepSeek-R1学习方法的启发,Robot-R1采样基于推理的响应,并强化那些能带来更准确预测的响应。实验表明,采用Robot-R1训练的模型在具身推理任务上优于SFT方法。尽管仅有70亿参数,Robot-R1在涉及低级动作控制的推理任务,如空间和基础运动推理上,甚至超越了GPT-4o。

14

稀疏视频扩散变换器:释放稀疏注意力潜能,加速视频生成
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

Jun 3
ByPengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
27
2

尽管扩散变换器(DiTs)在视频生成领域取得了突破性进展,但这一长序列生成任务仍受限于注意力机制的二次方复杂度,导致显著的推理延迟。通过对视频扩散变换器(vDiT)中注意力图的深入分析,我们识别出三种反复出现的稀疏模式:对角线、多对角线和垂直条纹结构。甚至3-6%的注意力头可以被跳过。关键的是,这些模式展现出强烈的层深度与头位置相关性,但对输入内容的依赖性有限。基于这些发现,我们提出了Sparse-vDiT,一个针对vDiT的稀疏加速框架,包含:1)模式优化的稀疏核,用计算高效的实现替换了密集注意力,适用于每种已识别的稀疏模式;2)离线稀疏扩散搜索算法,通过硬件感知的成本建模,为每层和每个头选择最优的稀疏计算策略。确定最优配置后,我们将同一层内采用相同注意力策略的头进行融合,以提升推理效率。集成至最先进的vDiT模型(CogVideoX1.5、HunyuanVideo和Wan2.1)中,Sparse-vDiT分别实现了2.09倍、2.38倍和1.67倍的理论FLOP减少,以及1.76倍、1.85倍和1.58倍的实际推理加速,同时保持了高视觉保真度,PSNR值分别达到24.13、27.09和22.59。我们的工作表明,vDiT中的潜在结构稀疏性可被系统性地利用于长视频合成。

15

通过强化学习协同进化大语言模型编码器与单元测试器
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Jun 3
ByYinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang
24
4

我们提出了CURE,一种新颖的强化学习框架,其独特的奖励设计基于编码与单元测试生成能力的交互结果进行协同进化,无需任何真实代码作为监督。这一方法实现了灵活且可扩展的训练,使单元测试器能够直接从编码器的错误中学习。我们开发的ReasonFlux-Coder-7B和14B模型,在Qwen2.5-Instruct模型上优化后,代码生成准确率提升了5.3%,Best-of-N准确率提高了9.0%,超越了同等规模的Qwen-Coder、DeepSeek-Coder和Seed-Coder。这些模型自然延伸至下游任务,如测试时扩展和代理编码,相较于基础模型实现了8.1%的提升。对于长链思维(long-CoT)模型,我们的ReasonFlux-Coder-4B持续优于Qwen3-4B,同时在单元测试生成中达到了64.8%的推理效率。值得注意的是,我们还发现该模型可作为基础模型强化学习的有效奖励模型。项目地址:https://github.com/Gen-Verse/CURE。

16

零样本主题驱动生成中的负向引导主题保真度优化
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Jun 4
ByChaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
22
2

我们提出了主题保真度优化(Subject Fidelity Optimization, SFO),这是一种新颖的对比学习框架,专为零样本主题驱动生成而设计,旨在提升主题保真度。与仅依赖正样本目标并在预训练阶段使用扩散损失的监督微调方法不同,SFO引入了合成负样本目标,并通过成对比较明确引导模型偏好正样本而非负样本。针对负样本,我们提出了条件退化负采样(Condition-Degradation Negative Sampling, CDNS),该方法通过有意降低视觉和文本线索的完整性,自动生成具有区分性和信息量的负样本,而无需昂贵的人工标注。此外,我们重新加权扩散时间步,将微调重点放在主题细节显现的中间步骤上。大量实验表明,在主题驱动生成基准测试中,结合CDNS的SFO在主题保真度和文本对齐方面均显著优于基线方法。项目页面:https://subjectfidelityoptimization.github.io/

17

动漫射手:面向参考引导视频生成的多镜头动画数据集
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

Jun 3
ByLu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
22
2

近期,AI生成内容(AIGC)的进展显著加速了动画制作。要创作引人入胜的动画,关键在于生成连贯的多镜头视频片段,并配以叙事脚本和角色参考。然而,现有的公开数据集主要集中于现实场景的全局描述,缺乏用于角色一致性引导的参考图像。为填补这一空白,我们推出了AnimeShooter,一个参考引导的多镜头动画数据集。AnimeShooter通过自动化流程,实现了全面的层次化标注和镜头间强烈的视觉一致性。故事级标注提供了叙事概览,包括故事情节、关键场景及带有参考图像的主要角色简介;而镜头级标注则将故事分解为连续镜头,每个镜头均标注了场景、角色,以及叙事性和描述性的视觉字幕。此外,专门子集AnimeShooter-audio为每个镜头提供了同步音轨,包含音频描述和音源信息。为展示AnimeShooter的有效性,并为参考引导的多镜头视频生成任务设立基准,我们引入了AnimeShooterGen,它结合了多模态大语言模型(MLLMs)和视频扩散模型。参考图像及先前生成的镜头首先由MLLM处理,生成同时感知参考与上下文的表示,随后作为扩散模型的条件,解码出后续镜头。实验结果表明,基于AnimeShooter训练的模型在跨镜头视觉一致性和遵循参考视觉引导方面表现卓越,凸显了本数据集在连贯动画视频生成中的价值。

18

原生分辨率图像合成
Native-Resolution Image Synthesis

Jun 3
ByZidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
18
3

我们提出了原生分辨率图像合成技术,这是一种创新的生成建模范式,能够在任意分辨率和宽高比下合成图像。该方法通过原生处理可变长度的视觉标记,克服了传统固定分辨率、方形图像方法的局限,这是传统技术面临的核心挑战。为此,我们引入了原生分辨率扩散Transformer(NiT),这一架构在其去噪过程中显式地建模了不同的分辨率和宽高比。摆脱了固定格式的束缚,NiT能够从涵盖广泛分辨率和宽高比的图像中学习内在的视觉分布。值得注意的是,单个NiT模型同时在ImageNet-256x256和512x512基准测试中达到了最先进的性能。令人惊讶的是,类似于先进大语言模型展现出的强大零样本能力,仅基于ImageNet训练的NiT也展示了卓越的零样本泛化性能。它成功地在之前未见的高分辨率(如1536 x 1536)和多样宽高比(如16:9、3:1、4:3)下生成了高保真图像,如图1所示。这些发现表明,原生分辨率建模作为视觉生成建模与先进LLM方法论之间的桥梁,具有巨大的潜力。

19

LumosFlow:运动引导的长视频生成
LumosFlow: Motion-Guided Long Video Generation

Jun 3
ByJiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
18
2

长视频生成因其在娱乐和模拟等领域的广泛应用而日益受到关注。尽管技术不断进步,合成时间连贯且视觉吸引力强的长序列视频仍然是一个巨大的挑战。传统方法通常通过顺序生成并拼接短视频片段,或先生成关键帧再以分层方式插值中间帧来合成长视频。然而,这两种方法仍面临显著挑战,导致诸如时间重复或过渡不自然等问题。本文重新审视了分层长视频生成流程,并引入了LumosFlow框架,该框架显式地引入了运动指导。具体而言,我们首先采用大运动文本到视频扩散模型(LMTV-DM)生成具有更大运动间隔的关键帧,从而确保生成的长视频内容多样性。鉴于在关键帧之间插值上下文过渡的复杂性,我们进一步将中间帧插值分解为运动生成和后处理细化。对于每一对关键帧,潜在光流扩散模型(LOF-DM)合成复杂且大运动的光流,而MotionControlNet随后对扭曲结果进行细化,以提升质量并指导中间帧的生成。与传统的视频帧插值相比,我们实现了15倍的插值,确保了相邻帧之间合理且连续的运动。实验表明,我们的方法能够生成具有一致运动和外观的长视频。代码和模型将在论文被接受后公开。项目页面:https://jiahaochen1.github.io/LumosFlow/

20

RelationAdapter:基于扩散Transformer的视觉关系学习与迁移
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Jun 3
ByYan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
15
2

受大型语言模型(LLMs)上下文学习机制的启发,一种基于可泛化视觉提示的图像编辑新范式正在兴起。现有的单参考方法通常专注于风格或外观调整,难以应对非刚性变换。为克服这些局限,我们提出利用源-目标图像对来提取并传递内容感知的编辑意图至新查询图像。为此,我们引入了RelationAdapter,一个轻量级模块,使基于扩散变换器(DiT)的模型能够从少量示例中有效捕捉并应用视觉变换。同时,我们推出了Relation252K,一个包含218种多样化编辑任务的综合数据集,用于评估模型在视觉提示驱动场景下的泛化能力与适应性。Relation252K上的实验表明,RelationAdapter显著提升了模型理解与传递编辑意图的能力,在生成质量和整体编辑性能上取得了显著提升。

21

DCM:双专家一致性模型,实现高效高质量视频生成
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

Jun 3
ByZhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
14
2

扩散模型在视频合成领域取得了显著成果,但其依赖迭代去噪步骤,导致计算开销巨大。一致性模型在加速扩散模型方面取得了重要进展。然而,直接将其应用于视频扩散模型往往会导致时间一致性和外观细节的严重退化。本文通过分析一致性模型的训练动态,发现蒸馏过程中存在一个关键的学习动态冲突:不同时间步的优化梯度和损失贡献存在显著差异。这种差异阻碍了蒸馏后的学生模型达到最优状态,从而影响了时间一致性并降低了外观细节质量。为解决这一问题,我们提出了一种参数高效的双专家一致性模型(DCM),其中语义专家专注于学习语义布局和运动,而细节专家则专门负责精细细节的优化。此外,我们引入了时间一致性损失以增强语义专家的运动一致性,并应用GAN和特征匹配损失来提升细节专家的合成质量。我们的方法在显著减少采样步数的同时,实现了最先进的视觉质量,证明了专家分工在视频扩散模型蒸馏中的有效性。代码和模型已公开于https://github.com/Vchitect/DCM。

22

数据表已不足够:数据评估框架助力自动化质量指标与问责机制
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Jun 2
ByGenta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
14
2

高质量数据集是训练和评估机器学习模型的基础,然而其创建——尤其是包含精确人工标注的数据集——仍然是一项重大挑战。许多数据集论文提交缺乏原创性、多样性或严格的质量控制,而这些不足在同行评审过程中常常被忽视。提交的论文也经常省略关于数据集构建和属性的关键细节。尽管现有工具如数据表旨在提高透明度,但它们主要是描述性的,并未提供标准化、可衡量的数据质量评估方法。同样,会议中的元数据要求虽促进了责任性,但执行并不一致。为解决这些局限,本立场论文主张将系统化、基于量规的评估指标整合到数据集评审过程中——尤其是在提交量持续增长的情况下。我们还探索了可扩展、成本效益高的合成数据生成方法,包括专用工具和LLM作为评判者的方法,以支持更高效的评估。作为行动号召,我们引入了DataRubrics,一个用于评估人工和模型生成数据集质量的框架。利用LLM评估的最新进展,DataRubrics提供了一个可重复、可扩展且可操作的解决方案,用于数据集质量评估,使作者和评审者能够在以数据为中心的研究中坚持更高标准。我们还发布了代码,以支持LLM评估的可重复性,详见https://github.com/datarubrics/datarubrics。

23

FlowMo:基于方差的流引导技术,实现视频生成中的连贯运动
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

Jun 1
ByAriel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer
14
2

文本到视频扩散模型在建模时间维度上的能力,如运动、物理和动态交互,存在显著局限。现有方法通过重新训练模型或引入外部条件信号来强化时间一致性,以应对这一局限。本研究探讨了是否能够直接从预训练模型的预测中提取有意义的时间表征,而无需额外训练或辅助输入。我们提出了FlowMo,一种无需训练的新型引导方法,它仅利用模型在每一步扩散中的自身预测来增强运动连贯性。FlowMo首先通过测量连续帧对应潜在空间的距离,得到去除了外观偏差的时间表征,从而凸显模型预测的隐含时间结构。接着,它通过计算时间维度上各局部区域的方差来估计运动连贯性,并在采样过程中动态引导模型降低这一方差。跨多个文本到视频模型的大量实验表明,FlowMo在不牺牲视觉质量或提示对齐的前提下,显著提升了运动连贯性,为增强预训练视频扩散模型的时间保真度提供了一种即插即用的有效解决方案。

24

利用程序分析反馈训练语言模型生成高质量代码
Training Language Models to Generate Quality Code with Program Analysis Feedback

May 28
ByFeng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang
13
4

利用大型语言模型(LLMs)进行代码生成,常被称为氛围编程,已在生产环境中日益普及,但难以确保代码质量,特别是在安全性(如SQL注入漏洞)和可维护性(如缺少类型注解)方面。现有方法,如监督微调和基于规则的后处理,依赖于劳动密集型的标注或脆弱的启发式规则,限制了其扩展性和有效性。我们提出了REAL,一个强化学习框架,通过程序分析引导的反馈激励LLMs生成生产级质量的代码。具体而言,REAL整合了两种自动化信号:(1)检测安全或可维护性缺陷的程序分析;(2)确保功能正确性的单元测试。与先前工作不同,我们的框架与提示无关且无需参考,实现了无需人工干预的可扩展监督。在多个数据集和模型规模上的实验表明,REAL在功能性和代码质量的同步评估中优于最先进的方法。我们的工作弥合了快速原型设计与生产就绪代码之间的差距,使LLMs能够同时提供速度与质量。

25

Ctrl-Crash:可控扩散模型实现逼真车辆碰撞模拟
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

May 30
ByAnthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
11
3

近年来,视频扩散技术取得了显著进展;然而,由于大多数驾驶数据集中事故事件的稀缺性,这些技术在生成逼真的车祸场景图像方面仍面临挑战。提升交通安全需要真实且可控的事故模拟。为解决这一问题,我们提出了Ctrl-Crash,一种可控的车祸视频生成模型,该模型以边界框、碰撞类型及初始图像帧等信号为条件。我们的方法支持反事实场景生成,其中输入的微小变化可能导致截然不同的碰撞结果。为实现推理时的细粒度控制,我们采用无分类器引导策略,为每个条件信号独立调整尺度。与先前的扩散方法相比,Ctrl-Crash在定量视频质量指标(如FVD和JEDi)以及基于人类评估的物理真实感和视频质量定性测量上均达到了业界领先水平。

26

自我挑战式语言模型代理
Self-Challenging Language Model Agents

Jun 2
ByYifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar
10
2

大型语言模型正迅速成为能够使用工具的智能代理的基础。然而,训练此类代理具有挑战性,因为它需要人工创建和标注多样化的任务集、工具集以及评估标准。本文提出了一种自我挑战框架,用于训练代理在自身生成的高质量任务上进行学习。代理首先扮演挑战者的角色,在与给定工具交互后生成任务。这些任务采用了一种新颖的通用问题类别,称为“代码即任务”,其由指令、验证函数以及作为测试的解决方案和失败案例定义,从而能够筛选出仅高质量的任务。随后,代理转为执行者角色,利用评估反馈作为奖励,通过强化学习在这些任务上进行训练。在现有的多轮工具使用代理基准测试M3ToolEval和TauBench上的评估表明,尽管仅使用自生成的训练数据,自我挑战框架在Llama-3.1-8B-Instruct模型上实现了超过两倍的性能提升。

27

PCoreSet:通过视觉-语言模型知识蒸馏实现高效主动学习
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

Jun 1
BySeongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang
10
3

知识蒸馏(KD)是一种广泛应用的框架,通过利用教师模型的知识来训练紧凑、任务特定的模型。然而,其在主动学习(AL)中的应用,即通过迭代样本选择以最小化标注成本,仍未被充分探索。这一空白源于KD通常假设有充足的标注数据,而AL则运作于数据稀缺的场景中,其中任务特定的教师模型往往不可得。本文提出ActiveKD框架,通过利用大规模视觉-语言模型(VLMs)的零样本和少样本能力,将AL与KD相结合。ActiveKD的一个关键方面是VLMs的结构化预测偏差——即其预测在概率空间中形成聚类。我们将此结构视为教师模型的归纳偏差,捕捉对学生学习有益的可泛化输出模式。为利用这一偏差,我们提出了概率核心集(PCoreSet),一种在概率空间而非特征空间中最大化覆盖的选择策略。PCoreSet策略性地选择类别多样的未标注样本,在有限标注预算下促进教师知识更高效的传递。在11个数据集上的评估表明,PCoreSet在ActiveKD框架内持续超越现有选择方法,推动了AL与KD交叉领域的研究进展。

28

SHARE:一种基于SLM的分层动作校正助手,用于文本到SQL转换
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL

May 31
ByGe Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng
8
2

当前文本到SQL的自校正方法面临两大关键局限:1)传统的自校正方法依赖于大语言模型(LLM)的递归自我调用,导致计算开销成倍增加;2)LLM在处理声明式SQL查询时,难以实现有效的错误检测与校正,因为它们无法展示出底层的推理路径。本研究提出SHARE,一种基于小型语言模型(SLM)的层次化动作校正助手,旨在使LLM能够进行更精确的错误定位与高效校正。SHARE通过一个顺序管道协调三个专门化的SLM,首先将声明式SQL查询转化为揭示底层推理的逐步动作轨迹,随后进行两阶段的精细化修正。此外,我们提出了一种新颖的层次化自进化策略,以实现数据高效训练。实验结果表明,SHARE有效提升了自校正能力,并在多种LLM上展现出鲁棒性。进一步的综合分析显示,即使在低资源训练环境下,SHARE仍能保持强劲性能,这对于具有数据隐私限制的文本到SQL应用尤为宝贵。

29

运动感知概念对齐,实现一致视频编辑
Motion-Aware Concept Alignment for Consistent Video Editing

Jun 1
ByTong Zhang, Juan C Leon Alcazar, Bernard Ghanem
7
2

我们推出了MoCA-Video(视频中的运动感知概念对齐),这是一个无需训练即可弥合图像域语义混合与视频之间差距的框架。给定一个生成的视频和用户提供的参考图像,MoCA-Video将参考图像的语义特征注入视频中的特定对象,同时保留原始的运动和视觉上下文。我们的方法利用对角去噪调度和类别无关分割,在潜在空间中检测并跟踪对象,精确控制混合对象的空间位置。为确保时间连贯性,我们引入了基于动量的语义校正和伽马残差噪声稳定化技术,以实现平滑的帧间过渡。我们使用标准SSIM、图像级LPIPS、时间LPIPS评估MoCA的性能,并引入了一个新指标CASS(概念对齐偏移评分)来评估源提示与修改后视频帧之间视觉偏移的一致性和有效性。通过自建数据集,MoCA-Video在无需训练或微调的情况下,超越了现有基线,实现了更优的空间一致性、连贯运动以及显著更高的CASS评分。MoCA-Video证明了在扩散噪声轨迹中进行结构化操控,能够实现可控且高质量的视频合成。

30

通过自适应并行解码加速扩散式大语言模型
Accelerating Diffusion LLMs via Adaptive Parallel Decoding

May 31
ByDaniel Israel, Guy Van den Broeck, Aditya Grover
7
2

大型语言模型(LLM)的生成速度受限于自回归解码过程,即逐个顺序预测令牌。相比之下,扩散大语言模型(dLLM)理论上允许并行令牌生成,但在实践中难以在不显著牺牲质量的情况下达到自回归模型的速度。为此,我们引入了自适应并行解码(APD),这是一种动态调整并行采样令牌数量的新方法。我们通过定义dLLM边缘概率与小型辅助自回归模型下序列联合概率之间的乘法混合来实现这一点。这反转了推测性解码的标准设置,后者的目标是通过从较小模型中草拟样本来从大型自回归验证器中采样。我们进一步通过启用KV缓存和限制掩码输入的大小来优化APD。总体而言,我们的方法提出了三个可调参数,以灵活权衡吞吐量和质量。我们证明,在下游基准测试中,APD在质量损失最小的情况下显著提高了吞吐量。

31

ORV:面向四维空间占用的机器人视频生成
ORV: 4D Occupancy-centric Robot Video Generation

Jun 3
ByXiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao
6
2

通过遥操作获取真实世界的机器人仿真数据,众所周知既耗时又费力。近年来,动作驱动的生成模型在机器人学习与仿真领域得到了广泛应用,因为它们消除了安全隐患并减少了维护成本。然而,这些方法所采用的动作序列由于全局粗粒度对齐,往往导致控制精度受限且泛化能力欠佳。为解决这些局限,我们提出了ORV(Occupancy-centric Robot Video)框架,一个以占据为中心的机器人视频生成系统,它利用4D语义占据序列作为细粒度表示,为视频生成提供更精确的语义与几何指导。通过基于占据的表示方法,ORV能够将仿真数据无缝转换为逼真的机器人视频,同时确保高时间一致性与精确可控性。此外,我们的框架支持同时生成多视角的机器人抓取操作视频——这对于下游机器人学习任务至关重要。大量实验结果表明,ORV在多个数据集及子任务上均持续超越现有基线方法。演示、代码与模型请访问:https://orangesodahub.github.io/ORV

32

简而言之:过长?重加权以实现高效大语言模型推理压缩
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Jun 3
ByZhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
5
2

大型语言模型(LLMs)近期通过强化学习和扩展的思维链(CoT)技术取得了显著进展。然而,在执行高效语言推理——尤其是在生成极长输出的推理过程中——所面临的挑战,已引起研究界越来越多的关注。在本研究中,我们提出了一种动态比例训练流程,该流程不依赖于复杂的数据标注或多模型间的插值。我们持续平衡模型System-1与System-2数据之间的权重,以消除冗余的推理过程,同时保持模型的推理能力。我们在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上,以及一系列难度各异的基准测试中验证了我们的方法。结果表明,我们的方法在保持推理准确性的同时,显著减少了近40%的输出token数量。我们的代码和数据即将公开。

33

多模态深度研究器:基于智能框架从零生成图文交织的研究报告
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

Jun 3
ByZhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen
5
2

可视化在有效传达概念和信息方面发挥着关键作用。近期,推理与检索增强生成技术的进步使得大型语言模型(LLMs)能够进行深度研究并生成全面报告。尽管取得了这些进展,现有的深度研究框架主要集中于生成纯文本内容,而文本与可视化自动交织生成的研究仍显不足。这一新颖任务在设计信息丰富的可视化并有效将其与文本报告整合方面提出了关键挑战。为应对这些挑战,我们提出了可视化形式化描述(FDV),一种图表的结构化文本表示方法,使LLMs能够学习并生成多样化的高质量可视化。基于此表示法,我们引入了多模态深度研究框架(Multimodal DeepResearcher),该框架将任务分解为四个阶段:(1) 研究,(2) 范例报告文本化,(3) 规划,以及(4) 多模态报告生成。为了评估生成的多模态报告,我们开发了MultimodalReportBench,包含100个多样化主题作为输入,并配备了5项专用评估指标。跨模型与评估方法的广泛实验验证了Multimodal DeepResearcher的有效性。值得注意的是,在采用相同Claude 3.7 Sonnet模型的情况下,Multimodal DeepResearcher相较于基线方法实现了82%的整体胜率。

34

QARI-OCR:通过多模态大语言模型适配实现高保真阿拉伯文本识别
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

Jun 2
ByAhmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
5
2

阿拉伯文字固有的复杂性,包括其连笔特性、变音符号(tashkeel)以及多样化的字体样式,为光学字符识别(OCR)技术带来了持续的挑战。我们推出了Qari-OCR,这是一系列基于Qwen2-VL-2B-Instruct的视觉-语言模型,通过针对专门合成的数据集进行迭代微调,逐步优化以适应阿拉伯文处理。我们的领先模型QARI v0.2,在富含变音符号的文本上,以0.160的单词错误率(WER)、0.061的字符错误率(CER)以及0.737的BLEU得分,确立了开源领域的新标杆。Qari-OCR在处理变音符号、多样字体及文档布局方面展现出卓越能力,同时在低分辨率图像上的表现亦令人瞩目。进一步的探索(QARI v0.3)揭示了其在结构化文档理解与手写文本识别方面的强大潜力。本工作显著提升了阿拉伯文OCR的准确性与效率,并公开了所有模型与数据集,以促进后续研究。

35

Control-R:迈向可控的测试时缩放
Control-R: Towards controllable test-time scaling

May 30
ByDi Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
5
2

本文旨在解决大型推理模型(LRMs)在长链思维(CoT)推理中存在的欠思考与过度思考问题,提出了一种新颖的推理控制场(RCF)方法——一种在测试时通过注入结构化控制信号,从树搜索视角引导推理的策略。RCF使模型在解决复杂任务时,能够依据给定的控制条件灵活调整推理力度。此外,我们推出了Control-R-4K数据集,该数据集包含标注有详细推理过程及相应控制场的挑战性问题。为进一步强化推理控制,我们提出了条件蒸馏微调(CDF)方法,专门训练模型——特别是Control-R-32B——以在测试时有效调节推理力度。在AIME2024和MATH500等基准测试上的实验结果表明,我们的方法在32B规模上实现了最先进的性能,同时支持可控的长链思维推理过程(L-CoT)。总体而言,本研究为可控的测试时扩展推理引入了一种高效范式。

36

开源推理模型缺失的一环:一个缓解冷启动短链思维(CoT)大语言模型在强化学习中困境的数据集
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

Jun 3
ByHyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
4
2

随着R1这一公开可用的大型推理模型(LRM)的发布,研究人员普遍通过在R1的长链思维(CoT)推理上训练语言模型来培养新的LRM。尽管先前的研究表明,LRM的能力可以通过直接蒸馏得以复现,但对现有模型(如R1)的持续依赖仍是推动该领域发展的关键限制。作为迈向独立LRM开发的第一步,本文探索了利用未针对推理时扩展进行训练的大型语言模型(LLMs)构建长链CoT数据集的可能性。为此,我们推出了“长链CoT集”,一个包含10万条CoT推理路径的数据集,这些路径由现有的短链CoT LLMs标注完成。我们开发了一套流程,将o1新颖的推理策略引入短链CoT LLMs中,使它们能够进行更长时间的思考,并引入对思维预算的可控性,以更好地管理过度思考的问题。我们的广泛分析验证了该数据集的质量与R1相当或略低。此外,实验结果表明,基于我们数据集进行训练不仅增强了通用推理能力,还为强化学习奠定了坚实基础——以我们的数据初始化的模型在使用RLVR时实现了2至3倍的增益提升。

37

回溯多少才够?探索监督微调与强化学习在提升大语言模型推理能力中的交互作用
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

May 30
ByHongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
4
4

近期在大语言模型(LLMs)领域的突破性进展,通过监督微调(SFT)和强化学习(RL)等技术,显著提升了其在数学和逻辑问题上的推理能力,这些问题通常具有可验证的答案。先前研究表明,RL能有效内化搜索策略,支持长链思维(CoT)推理,其中回溯作为一种习得能力自然显现。然而,回溯的具体益处,尤其是其对推理改进的贡献程度及最佳使用范围,仍不甚明了。本研究系统性地探讨了SFT与RL在八项推理任务(倒计时、数独、Arc 1D、几何、色块旋转、列表函数、斑马谜题及自指)中的动态关系。我们的发现强调,相较于冷启动RL,SFT中作为预热使用的短CoT序列对RL训练确实有中等程度的贡献;但随着任务难度增加,这种贡献逐渐减弱。基于此观察,我们构建了回溯步骤数量系统变化的合成数据集,并进行了控制实验,以分离正确性(内容)或结构(即回溯频率)的影响。研究发现:(1)包含回溯的长CoT通常能带来更好且更稳定的RL训练;(2)搜索空间更大的更复杂问题在SFT阶段往往需要更多次回溯。此外,通过蒸馏数据的实验,我们证明RL训练对长CoT序列的正确性依赖较小,表明RL更重视结构模式而非内容准确性。综合而言,我们的结果为设计最优训练策略以有效扩展LLMs的推理能力提供了实用见解。

38

深度视频探索:基于工具使用的长视频理解代理搜索
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

May 23
ByXiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
4
2

长视频理解因其复杂的时空特性及在如此长上下文中的问答难度而面临重大挑战。尽管大型语言模型(LLMs)在视频分析能力和长上下文处理上已展现出显著进步,但在处理信息密集的时长一小时以上的视频时仍存在局限。为克服这些限制,我们提出了深度视频发现代理(Deep Video Discovery agent),采用基于分段视频片段的主动搜索策略。与以往手动设计固定工作流的视频代理不同,我们的方法强调代理的自主性。通过在多粒度视频数据库上提供一套以搜索为核心的工具,我们的DVD代理利用LLM的高级推理能力,基于当前观察状态进行规划,策略性地选择工具,为行动制定合适参数,并根据收集到的信息迭代优化其内部推理。我们在多个长视频理解基准上进行了全面评估,证明了整个系统设计的优势。我们的DVD代理在具有挑战性的LVBench数据集上实现了SOTA性能,大幅超越先前工作。同时,我们还提供了详尽的消融研究和深入的工具分析,为针对长视频理解任务定制的智能代理的进一步发展提供了洞见。代码将于稍后发布。

39

MERIT:基于多条件交错查询的多语言语义检索系统
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

Jun 3
ByWei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
3
2

语义检索对于现代应用至关重要,但在当前研究中仍显不足。现有数据集局限于单一语言、单一图像或单一检索条件,往往未能充分利用视觉信息的表达能力,这一点在图像被替换为文字描述时性能保持不变的现象中可见一斑。然而,实际检索场景中常涉及交织的多条件查询,包含多幅图像。为此,本文推出了MERIT,首个面向交织多条件语义检索的多语言数据集,包含32万条查询和13.5万件商品,覆盖5种语言及7个不同商品类别。在MERIT上的大量实验揭示了现有模型的局限:仅关注全局语义信息,而忽视了查询中的具体条件要素。因此,我们提出了Coral,一种新颖的微调框架,通过集成嵌入重构以保留细粒度条件要素,并结合对比学习以提取全面的全局语义,从而适配预训练的多模态大语言模型(MLLMs)。实验表明,Coral在MERIT上相较于传统方法实现了45.9%的性能提升,并在8个成熟的检索基准测试中展现了强大的泛化能力。综合而言,我们的贡献——新数据集、对现有方法关键局限的识别及创新的微调框架——为未来交织多条件语义检索的研究奠定了基石。

40

FuseLIP:通过离散标记的早期融合实现多模态嵌入
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

Jun 3
ByChristian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
3
2

对比语言-图像预训练通过为每种模态配备独立的编码器,将文本-图像对的特征对齐到一个共同的潜在空间中。尽管这种方法在多项零样本任务中取得了令人瞩目的成绩,但它无法原生处理多模态输入,即无法将图像和文本编码为单一特征向量。为解决这一问题,通常的做法是使用额外模块来融合由单模态编码器提取的特征。在本研究中,我们提出了FuseLIP,一种多模态嵌入的替代架构。借助离散图像分词器的最新进展,我们提议采用一个单一Transformer模型,该模型操作于扩展的文本与图像词汇表上。这种早期融合策略使得不同模态能在编码的每一层深度进行交互,相较于常见的后期融合,能获得更为丰富的表征。我们收集了新的数据集用于多模态预训练与评估,设计了针对多模态编码器模型的挑战性任务。实验表明,FuseLIP在视觉问答(VQA)和文本引导的图像变换检索等多模态嵌入任务中优于其他方法,同时在单模态任务上与基线模型表现相当。

41

M^3FinMeeting:一个多语言、多领域、多任务的金融会议理解评估数据集
M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

Jun 3
ByJie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen
3
3

近期,大型语言模型(LLMs)的突破性进展催生了评估其在金融领域表现的新基准。然而,现有的金融基准多依赖于新闻报道、财报或公告,难以捕捉金融会议中的现实动态。为填补这一空白,我们提出了一个名为M^3FinMeeting的创新基准,这是一个专为金融会议理解设计的多语言、多行业、多任务数据集。首先,M^3FinMeeting支持英语、中文和日语,提升了在不同语言环境下对金融讨论的理解能力。其次,它涵盖了全球行业分类标准(GICS)定义的多个行业领域,确保基准覆盖广泛的金融活动。最后,M^3FinMeeting包含三项任务:摘要生成、问答对提取及问答,促进了更为真实和全面的理解评估。通过对七种流行LLMs的实验分析,结果显示即便是最先进的长上下文模型仍有显著提升空间,这证明了M^3FinMeeting作为评估LLMs金融会议理解能力基准的有效性。

42

角度不言自明:通过模型自身信号解锁高效训练的强化学习
Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals

Jun 2
ByQinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen
3
2

当前针对大型语言模型(LLMs)的强化微调(RFT)范式,由于在均匀数据采样下重复暴露相同查询,存在样本效率低下的问题。尽管先前研究通过启发式难度指标探索了课程学习,但这些策略因忽视模型自身生成的内在学习信号而表现出局限性,导致训练方案不够优化。本文中,我们识别出一种称为角度集中度的模型内在信号,它有效反映了LLM从特定数据中学习的能力。我们从理论和实证上证明了词元隐藏状态向量的角度分布与生成梯度之间的相关性,揭示了模型对展现更高角度集中度的数据具有学习偏好。受此发现启发,我们提出了GAIN-RL,一个基于梯度驱动的角度信息导航强化学习框架。通过利用模型内在的角度集中度信号,GAIN-RL在每一轮训练中动态选择数据,确保梯度更新始终具有显著影响,从而大幅提升整体训练效率。实证评估显示,GAIN-RL(GRPO)在多样化的数学和编程任务及不同模型规模上实现了超过2.5倍的训练效率提升。此外,GAIN-RL(GRPO)的高效采样实现了数据高效训练,仅用一半原始数据即达到了比使用全部训练数据的标准GRPO更优的性能。代码已发布于https://github.com/wangqinsi1/GAINRL/tree/main。

43

汉服基准:跨时代文化理解与再创作的多模态评估体系
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

Jun 2
ByLi Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
3
2

文化是一个丰富且动态的领域,其演变跨越地理与时间维度。然而,现有利用视觉-语言模型(VLMs)进行文化理解的研究主要聚焦于地理多样性,往往忽视了关键的时间维度。为填补这一空白,我们推出了Hanfu-Bench,一个由专家精心策划的多模态数据集。汉服,作为贯穿中国古代各朝代的传统服饰,是反映中国文化深厚时间维度的代表性文化遗产,同时在当代中国社会中仍享有极高的人气。Hanfu-Bench包含两大核心任务:文化视觉理解与文化图像转译。前者通过多选视觉问答考察基于单张或多张图像输入的时间-文化特征识别能力,后者则侧重于通过文化元素传承与现代语境适应,将传统服饰转化为现代设计。评估结果显示,在文化视觉理解任务上,封闭式VLMs的表现与非专家相当,但与人类专家相比仍有10%的差距,而开放式VLMs则进一步落后于非专家。在转译任务中,多维度的人类评估表明,表现最佳的模型成功率仅为42%。我们的基准测试为这一新兴的时间文化理解与创意适应方向提供了重要的实验平台,揭示了其中存在的重大挑战。

44

ReFoCUS:基于强化学习的上下文理解帧优化框架
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Jun 2
ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro
3
2

近期,大型多模态模型(LMMs)的进展已有效推动了视觉-语言推理能力的发展,然而,对视频内容的理解仍受限于次优的帧选择策略。现有方法多依赖静态启发式规则或外部检索模块来为视频-LLMs提供帧信息,这可能导致无法准确捕捉查询相关信息。为此,我们提出了ReFoCUS(基于强化学习的上下文理解帧优化框架),这是一种新颖的帧级策略优化框架,它将优化目标从文本响应转向视觉输入选择。ReFoCUS通过强化学习学习帧选择策略,利用源自参考LMM的奖励信号,反映模型对最能支持时间基础响应的帧的内在偏好。为了高效探索庞大的组合帧空间,我们采用了自回归的条件选择架构,确保时间连贯性的同时降低复杂度。我们的方法无需帧级别的显式监督,并在多个视频问答基准测试中持续提升推理性能,凸显了将帧选择与模型内部效用对齐的优势。

45

基于生成先验的可控人像关键帧插值
Controllable Human-centric Keyframe Interpolation with Generative Prior

Jun 3
ByZujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
2
2

现有的插值方法利用预训练的视频扩散先验,在稀疏采样的关键帧之间生成中间帧。然而,在缺乏三维几何引导的情况下,这些方法难以对复杂、关节化的人体运动生成合理结果,且对合成动态的控制有限。本文提出PoseFuse3D关键帧插值器(PoseFuse3D-KI),这是一种新颖的框架,它将三维人体引导信号融入扩散过程,实现可控的人体中心关键帧插值(CHKI)。为了为插值提供丰富的空间和结构线索,我们的PoseFuse3D——一个三维信息控制模型,引入了一种新颖的SMPL-X编码器,将三维几何和形状转换为二维潜在条件空间,并配备了一个融合网络,将这些三维线索与二维姿态嵌入相结合。为了评估,我们构建了CHKI-Video,这是一个标注了二维姿态和三维SMPL-X参数的新数据集。实验表明,PoseFuse3D-KI在CHKI-Video上持续超越最先进的基线方法,PSNR提升了9%,LPIPS降低了38%。全面的消融实验证实,我们的PoseFuse3D模型显著提高了插值的保真度。

46

言前先知:大语言模型表征在完成前即编码思维链成功信息
Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion

May 30
ByAnum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser
2
2

我们探究了零样本思维链(CoT)过程的成功是否能在完成前被预测。研究发现,基于大语言模型(LLM)表示的探测分类器,在生成首个词元前已表现出色,这表明推理过程中的关键信息已蕴含于初始步骤的表示之中。相比之下,仅依赖生成词元的强BERT基线模型表现较差,可能因其依赖于浅层语言线索而非深层推理动态。令人意外的是,使用后续推理步骤并不总能提升分类效果。当额外上下文无益时,早期表示与后期表示更为相似,暗示LLM在早期就已编码关键信息。这意味着推理过程往往可提前终止而不失效果。为验证此点,我们进行了早期停止实验,结果显示,即便截断CoT推理,其表现仍优于完全不使用CoT,尽管与完整推理相比仍存在差距。然而,旨在缩短CoT链的监督学习或强化学习方法,可借助我们分类器的指导来识别何时早期停止有效。我们的发现为支持此类方法提供了洞见,有助于在保持CoT优势的同时优化其效率。

47

R^2ec:迈向具备推理能力的大型推荐模型
R^2ec: Towards Large Recommender Models with Reasoning

May 22
ByRunyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
2
2

大型推荐模型通过编码或项目生成,将大语言模型(LLMs)扩展为强大的推荐系统,而LLM推理领域的最新突破同步激发了推荐系统中推理能力的探索。当前研究通常将LLMs定位为外部推理模块,为增强传统推荐管道提供辅助思维。然而,这种解耦设计在显著资源消耗和次优联合优化方面存在局限。为解决这些问题,我们提出了\name,一个具备内在推理能力的统一大型推荐模型。首先,我们重新构思模型架构,以促进自回归过程中推理与推荐的交替进行。随后,我们提出了RecPO,一个相应的强化学习框架,该框架在单次策略更新中同时优化\name\的推理与推荐能力;RecPO引入了一种融合奖励机制,仅利用推荐标签来模拟推理能力,从而消除对专门推理标注的依赖。在三个数据集上进行的多种基线实验验证了\name的有效性,显示在Hit@5和NDCG@20指标上分别相对提升了68.67%和45.21%。代码已发布于https://github.com/YRYangang/RRec。

48

ByteMorph:基于非刚性运动的指令引导图像编辑基准测试
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

Jun 3
ByDi Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
1
2

在计算机视觉领域,根据指令编辑图像以反映非刚性运动、摄像机视角变化、物体形变、人体关节活动及复杂交互,是一个具有挑战性且尚未充分探索的问题。现有方法和数据集主要集中于静态场景或刚性变换,限制了其处理涉及动态运动的富有表现力编辑的能力。为填补这一空白,我们推出了ByteMorph,一个专注于非刚性运动的指令驱动图像编辑综合框架。ByteMorph包含一个大规模数据集ByteMorph-6M,以及一个基于扩散变换器(DiT)构建的强大基线模型——ByteMorpher。ByteMorph-6M提供了超过600万对高分辨率图像编辑样本用于训练,并精心策划了评估基准ByteMorph-Bench,两者均涵盖了多样环境、人物及物体类别中的广泛非刚性运动类型。该数据集通过运动引导的数据生成、分层合成技术和自动标注构建,确保了多样性、真实感及语义一致性。此外,我们还对学术界和商业领域最新的指令驱动图像编辑方法进行了全面评估。

49

重访LRP:位置归因作为Transformer可解释性的缺失要素
Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability

Jun 2
ByYarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf
1
3

开发有效的Transformer可解释性工具是深度学习研究中的一项关键任务。在这一领域中,层间相关性传播(Layer-wise Relevance Propagation, LRP)是最具前景的方法之一,它通过基于预定义规则重新分配激活值,将相关性分数从网络反向传播至输入空间。然而,现有的基于LRP的Transformer可解释性方法完全忽视了Transformer架构中的一个关键组件:位置编码(Positional Encoding, PE),这导致守恒性质的破坏,以及一种重要且独特的相关性类型的丢失,这种相关性同样与结构和位置特征相关联。为解决这一局限,我们将Transformer可解释性的输入空间重新定义为位置-标记对的集合。这使得我们能够提出专门的理论基础LRP规则,旨在跨多种位置编码方法(包括旋转编码、可学习编码和绝对编码)传播归因。通过大量实验,包括微调分类器和零样本基础模型(如LLaMA 3),我们证明了该方法在视觉和自然语言处理可解释性任务中显著优于现有技术。我们的代码已公开提供。

50

超越上下文学习:通过任务固有属性指导对齐大型语言模型的长文本生成
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines

Jun 2
ByDo Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen
1
2

上下文学习(ICL)是预训练大型语言模型(LLMs)的一项重要但尚未完全理解的能力。它能够通过少量示例(称为演示)显著提升任务表现,而无需进行微调。尽管在问答任务中效果显著,ICL在诸如摘要生成长文本生成任务中往往表现欠佳。在适当的现实假设下,我们通过实证与理论分析表明,仅靠ICL演示不足以教会LLMs生成任务所需的语言和格式分布。我们主张明确接触任务分布,并假设通过提示定义这些分布能提升模型性能。为此,我们提出了LongGuide,它高效地生成两条并行指导流,分别捕捉任务语言和格式特性:(i)指标指导(MGs),指导模型优化自我评估的指标;(ii)输出约束指导(OCGs),在词元和句子层面约束生成。LongGuide自动选择最佳指导组合,在零样本和少样本设置下,将开源与闭源LLMs的性能提升超过5%。我们证明LongGuide具有通用性,可由弱模型学习以增强强模型,并能与自动提示优化器协同整合。

6月3日
6月4日
6月5日