HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

29 papers found

Any2Caption：将任意条件解读为字幕以实现可控视频生成
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Mar 31

ByShengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua

针对当前视频生成领域在精确理解用户意图方面存在的瓶颈，我们提出了Any2Caption，一个可在任意条件下实现可控视频生成的新颖框架。其核心思想在于将多样化的条件解析步骤与视频合成步骤解耦。通过利用现代多模态大语言模型（MLLMs），Any2Caption能够将文本、图像、视频及诸如区域、运动和相机姿态等特定提示等多元输入，转化为密集且结构化的描述，为骨干视频生成器提供更优的指导。此外，我们还推出了Any2CapIns，一个包含337K实例和407K条件的大规模数据集，专为任意条件到描述的指令微调而设计。全面评估表明，我们的系统在现有视频生成模型的多个方面，均显著提升了可控性与视频质量。项目页面：https://sqwu.top/Any2Cap/

JudgeLRM：大型推理模型作为评判者
JudgeLRM: Large Reasoning Models as a Judge

Mar 31

ByNuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

大型语言模型（LLMs）作为评估工具的兴起，为人工标注提供了一种可扩展的替代方案，然而现有的监督微调（SFT）方法在需要复杂推理的领域中往往表现不足。在本研究中，我们探讨了LLM评估者是否真正受益于增强的推理能力。通过对评估任务中推理需求的详细分析，我们发现SFT性能提升与需要推理的样本比例之间存在负相关关系，这凸显了SFT在此类场景中的局限性。为解决这一问题，我们引入了JudgeLRM，这是一系列面向判断的LLM，通过使用带有法官视角、结果驱动的奖励进行强化学习（RL）训练。JudgeLRM模型在性能上持续超越SFT微调模型及最先进的推理模型。值得注意的是，JudgeLRM-3B超越了GPT-4，而JudgeLRM-7B在F1分数上以2.79%的优势超过了DeepSeek-R1，尤其在需要深度推理的法官任务中表现卓越。

多令牌注意力机制
Multi-Token Attention

Apr 1

ByOlga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar

软注意力机制是驱动大型语言模型（LLMs）在给定上下文中定位相关部分的关键机制。然而，单个注意力权重仅由单一查询与键标记向量的相似性决定。这种“单标记注意力”限制了用于区分上下文相关部分的信息量。为解决这一问题，我们提出了一种新的注意力方法——多标记注意力（MTA），它使LLMs能够同时基于多个查询和键向量来调整其注意力权重。这是通过在查询、键及注意力头上应用卷积操作实现的，使得邻近的查询和键能够相互影响各自的注意力权重，从而实现更精确的注意力分配。因此，我们的方法能够利用超越单一向量容量的更丰富、更细致的信息来定位相关上下文。通过广泛的评估，我们证明了MTA在一系列流行基准测试中实现了性能提升。特别是在标准语言建模任务以及需要在长上下文中搜索信息的任务上，MTA超越了Transformer基线模型，其中我们方法利用更丰富信息的能力展现出了显著优势。

探索强化学习对视频理解的影响：来自SEED-Bench-R1的洞见
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

Mar 31

ByYi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

近期，思维链（Chain of Thought, COT）生成技术的进步显著提升了大型语言模型（Large Language Models, LLMs）的推理能力，其中强化学习（Reinforcement Learning, RL）作为一种有效的后训练方法崭露头角。多模态大型语言模型（Multimodal Large Language Models, MLLMs）继承了这一推理潜力，但在需要感知与逻辑推理相结合的任务上仍待深入探索。为此，我们推出了SEED-Bench-R1，一个旨在系统评估MLLMs在视频理解任务中后训练方法的基准。该基准包含复杂的现实世界视频及日常规划任务，以多选题形式呈现，要求模型具备高级的感知与推理能力。SEED-Bench-R1通过三个层次评估模型的泛化能力：同分布、跨环境及跨环境-任务场景，并配备了一个大规模训练数据集，其答案易于验证。以Qwen2-VL-Instruct-7B为基础模型，我们对比了RL与监督微调（Supervised Fine-Tuning, SFT），结果显示RL在数据效率及同分布与分布外任务上的表现均优于SFT，甚至在LongVideoBench等通用视频理解基准上超越SFT。我们的深入分析表明，RL增强了视觉感知，但生成的推理链在逻辑连贯性上常显不足。我们指出了诸如推理不一致、忽视视觉线索等关键局限，并建议未来在基础模型推理能力、奖励建模及RL对噪声信号的鲁棒性方面进行改进。

Open-Qwen2VL：基于学术资源的高效计算预训练全开放多模态大语言模型
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Apr 1

ByWeizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan

复现顶尖的多模态大语言模型（LLM）预训练在流程的每个阶段都面临障碍，包括高质量数据筛选、多模态数据混合策略、序列打包技术以及训练框架。我们推出了Open-Qwen2VL，这是一个完全开源的20亿参数多模态大语言模型，仅使用442个A100-40G GPU小时，在2900万图文对上高效完成了预训练。我们的方法采用从低到高的动态图像分辨率和多模态序列打包，显著提升了预训练效率。训练数据集通过结合基于MLLM的筛选技术（如MLM-Filter）和传统的CLIP筛选方法精心挑选，大幅提高了数据质量和训练效率。Open-Qwen2VL的预训练在UCSB的8个A100-40G GPU上完成，处理了50亿个打包的多模态token，仅占Qwen2-VL 1.4万亿多模态预训练token的0.36%。最终经过指令微调的Open-Qwen2VL在MMBench、SEEDBench、MMstar和MathVista等多个多模态基准测试中超越了部分开源的顶尖MLLM Qwen2-VL-2B，展现了Open-Qwen2VL卓越的训练效率。我们开源了工作的所有方面，包括计算高效和数据高效的训练细节、数据筛选方法、序列打包脚本、WebDataset格式的预训练数据、基于FSDP的训练代码库，以及基础和指令微调的模型检查点。我们重新定义了多模态LLM的“完全开源”，即完整发布：1）训练代码库，2）详细的数据筛选技术，以及3）用于模型开发的所有预训练和监督微调数据。

CodeARC：评估LLM代理在归纳程序合成中的推理能力基准
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Mar 29

ByAnjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken

归纳程序合成，或称示例编程，要求从输入输出示例中合成能够泛化到未见输入的函数。尽管大型语言模型代理在自然语言指导下的编程任务中展现出潜力，但其执行归纳程序合成的能力尚未得到充分探索。现有的评估协议依赖于静态示例集和保留测试，在合成函数错误时无法提供反馈，且未能反映诸如逆向工程等现实场景。我们提出了CodeARC，即代码抽象与推理挑战，这是一个新的评估框架，在此框架中，代理通过与隐藏目标函数交互，使用新输入进行查询，合成候选函数，并利用差分测试预言机迭代优化其解决方案。这种交互式设置鼓励代理基于反馈执行函数调用和自我修正。我们构建了首个面向通用归纳程序合成的大规模基准，包含1114个函数。在评估的18个模型中，o3-mini表现最佳，成功率达到52.7%，凸显了该任务的难度。在精选的合成轨迹上微调LLaMA-3.1-8B-Instruct，可带来高达31%的相对性能提升。CodeARC为评估基于LLM的程序合成与归纳推理提供了一个更为真实且具挑战性的测试平台。

扩展无语言视觉表征学习
Scaling Language-Free Visual Representation Learning

Apr 1

ByDavid Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie

视觉自监督学习（SSL）在多模态场景下，如视觉问答（VQA），目前表现逊色于对比语言-图像预训练（CLIP）。这一多模态差距常被归因于语言监督引入的语义信息，尽管视觉SSL与CLIP模型通常在不同数据上训练。本研究中，我们提出疑问：“视觉自监督方法落后于CLIP，是因为缺乏语言监督，还是训练数据的差异？”为解答此问题，我们在相同的MetaCLIP数据上训练视觉SSL与CLIP模型，并利用VQA作为视觉编码器的多样化测试平台。在这一控制性实验设置中，视觉SSL模型在数据和模型容量方面展现出优于CLIP模型的扩展能力，且即使参数规模扩大至70亿，视觉SSL性能仍未达到饱和。因此，我们观察到视觉SSL方法在广泛的VQA及经典视觉基准测试中达到了与CLIP相当的水平。这些发现表明，纯视觉自监督学习在大规模上能够匹敌语言监督的视觉预训练，为以视觉为中心的表示学习开辟了新的机遇。

指令A：一款企业级大型语言模型
Command A: An Enterprise-Ready Large Language Model

Apr 1

ByTeam Cohere, Aakanksha, Arash Ahmadian, Marwan Ahmed, Jay Alammar, Yazeed Alnumay, Sophia Althammer, Arkady Arkhangorodsky, Viraat Aryabumi, Dennis Aumiller, Raphaël Avalos, Zahara Aviv, Sammie Bae, Saurabh Baji, Alexandre Barbet, Max Bartolo, Björn Bebensee, Neeral Beladia, Walter Beller-Morales, Alexandre Bérard, Andrew Berneshawi, Anna Bialas, Phil Blunsom, Matt Bobkin, Adi Bongale, Sam Braun, Maxime Brunet, Samuel Cahyawijaya, David Cairuz, Jon Ander Campos, Cassie Cao, Kris Cao, Roman Castagné, Julián Cendrero, Leila Chan Currie, Yash Chandak, Diane Chang, Giannis Chatziveroglou, Hongyu Chen, Claire Cheng, Alexis Chevalier, Justin T. Chiu, Eugene Cho, Eugene Choi, Eujeong Choi, Tim Chung, Volkan Cirik, Ana Cismaru, Pierre Clavier, Henry Conklin, Lucas Crawhall-Stein, Devon Crouse, Andres Felipe Cruz-Salinas, Ben Cyrus, Daniel D'souza, Hugo Dalla-Torre, John Dang, William Darling, Omar Darwiche Domingues, Saurabh Dash, Antoine Debugne, Théo Dehaze, Shaan Desai, Joan Devassy, Rishit Dholakia, Kyle Duffy, Ali Edalati, Ace Eldeib, Abdullah Elkady, Sarah Elsharkawy, Irem Ergün, Beyza Ermis, Marzieh Fadaee, Boyu Fan, Lucas Fayoux, Yannis Flet-Berliac, Nick Frosst, Matthias Gallé, Wojciech Galuba, Utsav Garg, Matthieu Geist, Mohammad Gheshlaghi Azar, Seraphina Goldfarb-Tarrant, Tomas Goldsack, Aidan Gomez, Victor Machado Gonzaga, Nithya Govindarajan, Manoj Govindassamy, Nathan Grinsztajn, Nikolas Gritsch, Patrick Gu, Shangmin Guo, Kilian Haefeli, Rod Hajjar, Tim Hawes, Jingyi He, Sebastian Hofstätter, Sungjin Hong, Sara Hooker, Tom Hosking, Stephanie Howe, Eric Hu, Renjie Huang, Hemant Jain, Ritika Jain, Nick Jakobi, Madeline Jenkins, JJ Jordan, Dhruti Joshi, Jason Jung, Trushant Kalyanpur, Siddhartha Rao Kamalakara, Julia Kedrzycki, Gokce Keskin, Edward Kim, Joon Kim, Wei-Yin Ko, Tom Kocmi, Michael Kozakov, Wojciech Kryściński, Arnav Kumar Jain, Komal Kumar Teru, Sander Land, Michael Lasby, Olivia Lasche, Justin Lee, Patrick Lewis, Jeffrey Li, Jonathan Li, Hangyu Lin, Acyr Locatelli, Kevin Luong, Raymond Ma, Lukas Mach, Marina Machado, Joanne Magbitang, Brenda Malacara Lopez, Aryan Mann, Kelly Marchisio, Olivia Markham, Alexandre Matton, Alex McKinney, Dominic McLoughlin, Jozef Mokry, Adrien Morisot, Autumn Moulder, Harry Moynehan, Maximilian Mozes, Vivek Muppalla, Lidiya Murakhovska, Hemangani Nagarajan, Alekhya Nandula, Hisham Nasir, Shauna Nehra, Josh Netto-Rosen, Daniel Ohashi, James Owers-Bardsley, Jason Ozuzu, Dennis Padilla, Gloria Park, Sam Passaglia, Jeremy Pekmez, Laura Penstone, Aleksandra Piktus, Case Ploeg, Andrew Poulton, Youran Qi, Shubha Raghvendra, Miguel Ramos, Ekagra Ranjan, Pierre Richemond, Cécile Robert-Michon, Aurélien Rodriguez, Sudip Roy, Laura Ruis, Louise Rust, Anubhav Sachan, Alejandro Salamanca, Kailash Karthik Saravanakumar, Isha Satyakam, Alice Schoenauer Sebag, Priyanka Sen, Sholeh Sepehri, Preethi Seshadri, Ye Shen, Tom Sherborne, Sylvie Chang Shi, Sanal Shivaprasad, Vladyslav Shmyhlo, Anirudh Shrinivason, Inna Shteinbuk, Amir Shukayev, Mathieu Simard, Ella Snyder, Ava Spataru, Victoria Spooner, Trisha Starostina, Florian Strub, Yixuan Su, Jimin Sun, Dwarak Talupuru, Eugene Tarassov, Elena Tommasone, Jennifer Tracey, Billy Trend, Evren Tumer, Ahmet Üstün, Bharat Venkitesh, David Venuto, Pat Verga, Maxime Voisin, Alex Wang, Donglu Wang, Shijian Wang, Edmond Wen, Naomi White, Jesse Willman, Marysia Winkels, Chen Xia, Jessica Xie, Minjie Xu, Bowen Yang, Tan Yi-Chern, Ivan Zhang, Zhenyu Zhao, Zhoujie Zhao

本报告详细介绍了Command A的开发过程，这是一款专为卓越应对现实企业应用场景而构建的强大大型语言模型。Command A是一款面向智能体优化且具备多语言能力的模型，支持全球商务中的23种语言，并采用了一种新颖的混合架构，在效率与顶级性能之间实现了平衡。该模型提供了业界领先的检索增强生成（RAG）能力，结合基础信息与工具使用，以自动化复杂的业务流程。这些能力通过去中心化的训练方法实现，包括自我优化算法和模型融合技术。我们还展示了与Command A在能力和架构上相似的Command R7B的成果。两款模型的权重均已公开发布，供研究使用。本技术报告深入阐述了我们的原始训练流程，并对模型在一系列企业相关任务及公共基准测试中的表现进行了广泛评估，展示了卓越的性能与效率。

思维图景：大型语言模型推理过程的可视化
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Mar 28

ByZhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han

大型语言模型（LLMs）的众多应用依赖于其执行逐步推理的能力。然而，LLMs的推理行为仍鲜为人知，这给研究、开发及安全性带来了挑战。为填补这一空白，我们引入了“思维景观”——首个可视化工具，使用户能够检查链式思维及其衍生方法在任何多选题数据集上的推理路径。具体而言，我们将推理路径中的状态表示为特征向量，量化其与所有答案选项的距离。随后，利用t-SNE技术将这些特征在二维图中可视化。通过“思维景观”的定性与定量分析，能有效区分强弱模型、正误答案以及不同的推理任务，并揭示不良推理模式，如低一致性和高不确定性。此外，用户可调整我们的工具以适应预测所观察属性的模型。我们通过将该工具适配于一个轻量级验证器来展示这一优势，该验证器用于评估推理路径的正确性。代码已公开于：https://github.com/tmlr-group/landscape-of-thoughts。

几何塑造者：基于扩散先验的开放世界视频一致性几何估计
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Apr 1

ByTian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan

尽管视频深度估计领域取得了显著进展，现有方法在通过仿射不变预测实现几何保真度方面存在固有局限，这限制了其在重建及其他基于度量的下游任务中的适用性。我们提出了GeometryCrafter，一个创新框架，能够从开放世界视频中恢复具有时间一致性的高精度点云序列，从而支持精确的3D/4D重建、相机参数估计以及其他基于深度的应用。该框架的核心是一个点云变分自编码器（VAE），它学习了一个与视频潜在分布无关的潜在空间，以实现有效的点云编码与解码。借助VAE，我们训练了一个视频扩散模型，以建模基于输入视频的点云序列分布。在多个数据集上的广泛评估表明，GeometryCrafter在3D精度、时间一致性及泛化能力方面均达到了业界领先水平。

Z1：基于代码的高效测试时扩展
Z1: Efficient Test-time Scaling with Code

Apr 1

ByZhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

大型语言模型（LLMs）通过测试时计算扩展能够实现更复杂的解题能力，但这通常伴随着更长的上下文和大量的推理标记成本。本文提出了一种高效的测试时扩展方法，该方法通过训练LLMs处理代码相关的推理轨迹，帮助其减少多余的思考标记，同时保持性能。首先，我们创建了Z1-Code-Reasoning-107K，这是一个精心策划的数据集，包含简单和复杂的编程问题及其对应的简短和详细解决方案轨迹。其次，我们引入了一种新颖的“思维窗口偏移”技术，通过移除上下文界定标签（如<think>. . . </think>）并限制推理标记数量，来减轻过度思考的开销。结合长、短轨迹数据训练并配备“思维窗口偏移”的模型Z1-7B，展现了根据问题复杂度调整推理深度的能力，并在不同推理任务中实现了高效的测试时扩展，其表现与R1-Distill-Qwen-7B相当，但平均思考标记数仅为后者的约30%。值得注意的是，仅通过代码轨迹微调的Z1-7B，在更广泛的推理任务上展现了泛化能力（在GPQA Diamond上达到47.5%）。我们对高效推理激发机制的分析，也为未来研究提供了宝贵的洞见。

Agent S2：一种面向计算机使用代理的复合型通用-专用框架
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Apr 1

BySaaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang

计算机使用代理通过直接与计算机和移动设备上的图形用户界面（GUI）交互，自动化执行数字任务，为提升人类生产力提供了广阔空间，能够完成多样化的用户查询。然而，当前代理面临显著挑战：GUI元素定位不精确、长时程任务规划困难，以及依赖单一通用模型处理多样化认知任务导致的性能瓶颈。为此，我们引入了Agent S2，一种新颖的组合框架，将认知职责分配给多种通用和专用模型。我们提出了一种创新的混合定位技术，以实现精确的GUI定位，并引入了主动分层规划，动态地在多个时间尺度上根据观察到的变化优化行动计划。评估结果显示，Agent S2在三个主要的计算机使用基准测试中确立了新的最先进（SOTA）性能。具体而言，Agent S2在OSWorld的15步和50步评估中，分别比Claude Computer Use和UI-TARS等领先基线代理提升了18.9%和32.7%的相对性能。此外，Agent S2在其他操作系统和应用上展现出良好的泛化能力，在WindowsAgentArena上比之前最佳方法提升了52.8%，在AndroidWorld上提升了16.52%。代码可在https://github.com/simular-ai/Agent-S获取。

背诵胜于推理：前沿语言模型为何会在小学水平推理题上失手？
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

Apr 1

ByKai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen

近年来，大语言模型（LLM）基准测试的难度从小学水平迅速攀升至前沿问题，为研究者们编织了一个奇迹般的愿景：我们距离超越人类智能仅一步之遥。然而，LLM所展现出的卓越推理能力，究竟是符合人类标准的真正智能，还是仅仅在复述训练期间在互联网规模上见过的解决方案？为探究这一问题，我们提出了RoR-Bench，一个新颖的多模态基准测试，旨在检测LLM在面对条件微妙变化的简单推理问题时是否存在复述行为，并基于此基准进行了实证分析。令人惊讶的是，我们发现现有的顶尖LLM无一例外地表现出极其严重的复述行为；仅通过改变条件中的一个短语，如OpenAI-o1和DeepSeek-R1等顶级模型在小学水平的算术和推理问题上的表现可能骤降60%。这一发现为LLM领域敲响了警钟，促使我们重新评估顶尖LLM的真实智能水平。

YourBench：面向所有人的简易定制评估集
YourBench: Easy Custom Evaluation Sets for Everyone

Apr 2

BySumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür

有效评估大型语言模型（LLMs）仍是一个关键瓶颈，因为传统的静态基准测试面临饱和与污染问题，而人工评估则成本高昂且耗时。这阻碍了及时或特定领域的评估，而这些评估对于实际应用至关重要。我们推出了YourBench，一个创新的开源框架，通过直接从用户提供的文档中动态、自动生成可靠、最新且领域定制的基准测试，无需手动标注，以低成本解决了这些限制。我们通过使用极少的源文本复制了7个多样化的MMLU子集，证明了其有效性，总推理成本不到15美元，同时完美保留了原始基准测试中观察到的模型性能相对排名（Spearman Rho = 1）。为确保YourBench生成的数据基于提供的输入而非依赖模型中的后验参数知识，我们还引入了Tempora-0325，一个包含超过7K份多样化文档的新数据集，这些文档均于2025年3月之后发布。我们的全面分析涵盖了来自7个主要家族的26个最先进模型，跨越不同规模（3-671B参数），通过严格的算法检查（如引用验证）和人工评估来验证生成评估的质量。我们发布了YourBench库、Tempora-0325数据集、基于Tempora的15万+问答对以及所有评估和推理轨迹，以促进可重复研究，并赋能社区按需生成定制基准测试，推动更相关、更可信的LLM评估。

迈向可信的GUI智能体：一项综述
Towards Trustworthy GUI Agents: A Survey

Mar 30

ByYucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu

由大型基础模型驱动的GUI代理能够与数字界面进行交互，从而在网页自动化、移动导航和软件测试等领域实现多种应用。然而，其日益增强的自主性引发了对其安全性、隐私保护和可靠性的重大关切。本综述从五个关键维度审视了GUI代理的可信度：安全漏洞、动态环境中的可靠性、透明性与可解释性、伦理考量以及评估方法。我们还识别了主要挑战，如对抗性攻击的脆弱性、序列决策中的级联故障模式，以及缺乏现实的评估基准。这些问题不仅阻碍了实际部署，还要求在任务成功之外采取全面的缓解策略。随着GUI代理的广泛应用，建立稳健的安全标准和负责任的开发实践至关重要。本综述通过系统性理解和未来研究，为推进可信GUI代理的发展奠定了基础。

驾驭推理经济性：大语言模型高效推理研究综述
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

Mar 31

ByRui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong

大型语言模型（LLMs）的最新进展显著提升了其执行复杂推理任务的能力，实现了从快速直觉思维（系统1）向缓慢深度推理（系统2）的转变。尽管系统2推理提高了任务准确性，但由于其缓慢的思维特性及低效或冗余的推理行为，往往伴随着巨大的计算成本。相比之下，系统1推理虽计算效率高，却导致性能欠佳。因此，在性能（收益）与计算成本（预算）之间寻求平衡变得至关重要，这催生了推理经济性的概念。本综述全面分析了LLMs在训练后及测试推理阶段中的推理经济性，涵盖：i) 推理低效的成因，ii) 不同推理模式的行为分析，以及iii) 实现推理经济性的潜在解决方案。通过提供可操作的见解并指出开放挑战，我们旨在阐明提升LLMs推理经济性的策略，从而为推动这一不断发展的研究领域提供宝贵资源。此外，我们还设立了一个公共资源库，持续追踪这一快速演进领域的最新动态。

MixerMDM：可学习的人体运动扩散模型组合
MixerMDM: Learnable Composition of Human Motion Diffusion Models

Apr 1

ByPablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez

在文本描述等条件引导下生成人体运动极具挑战性，这主要源于需要具备高质量运动及其对应条件配对的数据集。当追求更精细的生成控制时，这一难度进一步加大。为此，先前的研究提出将多个在不同类型条件数据集上预训练的运动扩散模型相结合，从而实现多条件控制。然而，这些提出的融合策略忽视了结合生成过程的最佳方式可能依赖于每个预训练生成模型的特性以及具体的文本描述。在此背景下，我们引入了MixerMDM，这是首个可学习的模型组合技术，用于结合预训练的文本条件人体运动扩散模型。与以往方法不同，MixerMDM提供了一种动态混合策略，通过对抗训练学习如何根据驱动生成的条件集合来结合每个模型的去噪过程。通过使用MixerMDM结合单人和多人运动扩散模型，我们实现了对每个人动态的精细控制，以及对整体互动的调控。此外，我们提出了一种新的评估技术，首次在该任务中通过计算混合生成运动与其条件之间的对齐度，以及MixerMDM根据待混合运动调整整个去噪过程中混合方式的能力，来衡量互动质量和个体质量。

OmniMMI：流媒体视频场景下的多模态交互综合基准测试
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

Mar 29

ByYuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng

多模态语言模型（MLLMs）如GPT-4o的快速发展，推动了全能语言模型的进步，这些模型旨在处理并主动响应连续的多模态数据流。尽管潜力巨大，在流媒体视频场景中评估其实际交互能力仍是一项艰巨挑战。本研究中，我们推出了OmniMMI，一个专为流媒体视频场景下的全能语言模型（OmniLLMs）量身定制的综合多模态交互基准。OmniMMI囊括了超过1,121个视频和2,290个问题，针对现有视频基准中两个关键但尚未充分探索的挑战：流媒体视频理解与主动推理，覆盖了六个不同的子任务。此外，我们提出了一种新颖的框架——多模态多路复用建模（M4），旨在实现一个推理高效的流媒体模型，该模型能够在生成过程中同时进行视觉与听觉处理。

通过剪裁跨注意力视觉特征实现高效的LLaMA-3.2-Vision
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Apr 1

ByJewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim

视觉令牌缩减技术有效降低了大型视觉语言模型（LVLMs）中因大量图像特征带来的推理成本。与现有研究仅针对自注意力机制的LVLMs进行令牌剪枝不同，我们的工作独辟蹊径，专注于基于交叉注意力机制的模型，这类模型展现出更卓越的性能。我们发现，在交叉注意力层中，图像令牌的键值（KV）缓存规模远超自注意力层中的文本令牌，成为计算性能的主要瓶颈。为解决这一问题，我们利用交叉注意力图的稀疏特性，有选择性地剪除冗余的视觉特征。我们的Trimmed Llama模型无需额外训练，即可显著降低KV缓存需求。得益于视觉特征减少50%，该模型在保持基准性能的同时，有效降低了推理延迟和内存占用。

何时求解，何时验证：面向大语言模型推理的计算优化问题求解与生成式验证
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Apr 1

ByNishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach

扩展测试时计算已成为提升大型语言模型（LLMs）推理能力的关键策略，尤其在数学问题求解等任务中。传统方法如自我一致性（Self-Consistency, SC）通过生成多个问题解决方案并采用多数投票选出最常见答案。另一种常见方法则是利用奖励模型（验证器）为每个解决方案打分，并选择最优者。生成式奖励模型（Generative Reward Models, GenRM）的最新进展将验证重构为下一个令牌预测任务，从而在推理时沿新维度实现扩展。具体而言，GenRM生成多条验证思维链来为每个解决方案评分。在有限的推理预算下，这引入了一个基本权衡：是应将预算用于通过SC扩展解决方案数量，还是生成较少解决方案并将计算资源分配给通过GenRM进行的验证？为解决这一问题，我们在固定推理预算下对比评估了GenRM与SC。有趣的是，我们发现，在多种模型和数据集上，对于大多数实际推理预算，SC比GenRM更具计算效率。例如，GenRM在消耗高达8倍推理计算量后首次与SC持平，且需要显著更多的计算资源才能超越SC。此外，我们推导了GenRM范式的推理扩展定律，揭示了计算最优推理更倾向于激进地扩展解决方案生成而非验证次数。我们的工作为通过平衡解决方案生成与验证来优化测试时扩展提供了实用指导。代码已发布于https://github.com/nishadsinghi/sc-genrm-scaling。

推理SQL：基于SQL定制化部分奖励的强化学习用于推理增强的文本到SQL转换
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Mar 29

ByMohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik

文本到SQL转换是一项具有挑战性的任务，涉及多个需要深度推理的子任务，包括自然语言理解、数据库模式解析以及精确的SQL查询构建。现有方法通常依赖于带有归纳偏置的手工推理路径，这可能会限制其整体效能。受近期如DeepSeek R1和OpenAI o1等推理增强模型成功的启发，这些模型有效利用奖励驱动的自我探索来提升推理能力和泛化性能，我们提出了一套专为文本到SQL任务设计的部分奖励机制。这套奖励机制包含模式链接、AI反馈、n-gram相似度及语法检查，旨在直接解决强化学习（RL）中普遍存在的奖励稀疏问题。通过采用群体相对策略优化（GRPO），我们的方法明确鼓励大型语言模型（LLMs）发展出生成准确SQL查询所需的内在推理技能。在不同规模的模型上，我们展示了仅使用我们提出的奖励进行RL训练，相较于监督微调（SFT），能够持续实现更高的准确率和更优的泛化能力。值得注意的是，我们通过RL训练的14B参数模型在BIRD基准测试中显著超越了更大的专有模型，例如o3-mini高出4%，Gemini-1.5-Pro-002高出3%。这些成果凸显了我们提出的带有部分奖励的RL训练框架在提升文本到SQL任务准确性和推理能力方面的有效性。

m1：释放测试时缩放潜力，助力大语言模型在医疗推理中的应用
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

Apr 1

ByXiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou

测试时扩展技术已成为提升大型语言模型推理能力的有力手段。然而，其在医疗推理领域的有效性尚不明确，因为医疗领域在知识表示和决策过程方面与数学任务存在根本差异。本文首次对测试时扩展在医疗推理中的应用进行了全面研究，并提出了m1，一种简单而有效的方法，能在推理阶段提升模型的医疗推理能力。我们在多种医疗任务上的评估表明，测试时扩展持续增强了医疗推理，使参数不足100亿的轻量级微调模型达到了新的最先进性能，而我们的320亿参数模型则与先前700亿规模的医疗大语言模型相媲美。然而，我们发现推理令牌预算存在一个约4K的最佳值，超过此值，性能可能因过度思考而下降。预算强制通过迭代提示扩展测试时计算，虽有助于模型复核答案，但未必能整体提升医疗问答性能，在某些情况下甚至会将错误引入原本正确的回答中。我们的个案分析指出，医疗知识不足是阻碍通过测试时扩展进一步获得性能提升的关键瓶颈。我们发现，增加数据规模、提升数据质量以及扩展模型容量，均能持续强化医疗知识基础，特别是在小型模型达到饱和的挑战性医疗基准上，实现持续的性能改进。这些发现凸显了医疗与数学推理在大语言模型中的根本差异，强调除了增加推理深度外，丰富的医疗知识对于实现测试时扩展的益处至关重要。

复杂任务中的推理时扩展：现状与未来展望
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Mar 31

ByVidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi

推理时扩展能够增强大型语言模型（LLMs）在需要逐步解决的复杂问题上的推理能力。尽管延长生成的草稿纸对于数学任务已被证明有效，但这种方法对其他任务的广泛影响仍不明确。在本研究中，我们探讨了扩展方法在九种最先进模型和八项挑战性任务中的优势与局限，这些任务包括数学与STEM推理、日程规划、NP难问题、导航以及空间推理。我们通过涉及重复模型调用的评估协议，将传统模型（如GPT-4o）与针对推理时扩展进行微调的模型（如o1）进行比较，这些调用可以是独立的，也可以是带有反馈的连续调用。这些评估近似于每个模型性能的下限与上限，以及未来通过增强训练或多模型推理系统可能实现的性能提升潜力。我们广泛的实证分析表明，推理时扩展的优势因任务而异，并随着问题复杂度的增加而减弱。此外，在这些高难度场景下，单纯使用更多token并不必然转化为更高的准确率。使用完美验证器的传统模型在多次独立运行中的结果显示，对于某些任务，这些模型能够接近当前最先进推理模型的平均性能。然而，对于其他任务，即便在极高的扩展规模下，性能差距依然显著。令人鼓舞的是，所有模型在进一步通过完美验证器或强反馈进行推理扩展时，均展现出显著的性能提升，预示着未来改进的广阔空间。

AdaMMS：基于无监督系数优化的异构多模态大语言模型融合
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

Mar 31

ByYiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu

近期，模型融合方法在整合多个大型语言模型（LLMs）于各类任务上的能力方面展现了显著优势。然而，以往的模型融合方法主要集中于架构相同的同质模型，在面对具有固有异质性的多模态大型语言模型（MLLMs）时遇到了挑战，这些挑战包括模型架构的差异以及参数空间的不对称性。本研究中，我们提出了AdaMMS，一种专为异质MLLMs设计的新型模型融合方法。该方法通过三个步骤应对挑战：映射、融合与搜索。具体而言，我们首先设计了模型间的映射函数，以便在不同架构的MLLMs上实施模型融合；随后，采用线性插值法对模型权重进行调整，主动适应异质MLLMs中的不对称性；最后，在超参数搜索阶段，提出了一种无监督的超参数选择方法用于模型融合。作为首个无需标注数据即可融合异质MLLMs的模型融合方法，大量实验证明，AdaMMS在多种模型组合上均优于先前的模型融合方法，在多个视觉-语言基准测试中表现卓越。

Chapter-Llama：利用大语言模型实现小时级视频的高效章节划分
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Mar 31

ByLucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol

我们致力于解决视频章节划分任务，即将长视频时间线分割为语义单元并生成相应的章节标题。尽管自动章节划分的研究相对较少，但它具有提升长视频导航与内容检索效率的潜力。本文中，我们通过“Chapter-Llama”框架在文本领域高效处理这一问题，在长达一小时的视频上实现了卓越的章节划分性能。具体而言，我们利用了一个具备大上下文窗口的预训练大语言模型（LLM），并输入（i）语音转录文本和（ii）描述视频帧的字幕，以及它们各自的时间戳。鉴于为所有帧详尽添加字幕的低效性，我们提出了一种基于语音转录内容的轻量级语音引导帧选择策略，并通过实验展示了其显著优势。我们训练LLM输出章节边界的时间戳以及自由格式的章节标题。这一简洁而强大的方法能够单次前向传播处理长达一小时的视频。我们的成果在最新的VidChapters-7M基准测试上展现了显著提升（例如，F1分数从26.7提升至45.3）。为促进进一步研究，我们在项目页面上公开了代码和模型。

在大规模知识库上揭示语言模型的知识缺陷
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Mar 30

ByLinxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao

大型语言模型（LLMs）展现出卓越的语言处理能力，却常难以准确保留事实知识，导致产生幻觉及不可靠的输出。全面评估LLMs与大规模知识库的匹配度以理解其知识缺陷，在计算上极为昂贵，尤其对于闭源权重模型而言。我们提出随机误差上升（SEA）框架，这一可扩展且高效的方案，能在严格查询预算下，发现闭源权重LLMs的知识缺陷（错误）。SEA并未简单探测所有知识候选，而是将错误发现建模为一个随机优化过程：通过利用与先前观察到的失败案例的语义相似性，迭代检索新的高错误率候选。为进一步提升搜索效率与覆盖范围，SEA采用文档与段落层次的分级检索，并构建关系有向无环图以模拟错误传播，识别系统性故障模式。实证表明，SEA发现的知识错误数量是自动能力发现的40.7倍，比AutoBencher多26.7%，同时将每错误成本分别降低了599倍和9倍。人工评估确认了生成问题的高质量，而消融与收敛分析验证了SEA中各组件的贡献。对发现错误的进一步分析揭示了跨LLM家族的关联性故障模式及反复出现的知识短板，强调了未来LLM开发中需加强数据覆盖与针对性微调的必要性。

ManipTrans：通过残差学习实现高效灵巧双手操作迁移
ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

Mar 27

ByKailin Li, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang

人类双手在交互中扮演着核心角色，这推动了对灵巧机器人操控研究的不断深入。数据驱动的具身AI算法需要精确、大规模且类人的操作序列，而传统的强化学习或现实世界的遥操作难以满足这一需求。为此，我们提出了ManipTrans，一种新颖的两阶段方法，旨在高效地将人类双手技能迁移至模拟环境中的灵巧机器人手。ManipTrans首先预训练一个通用轨迹模仿器以模拟手部运动，随后在交互约束下微调特定的残差模块，从而实现复杂双手任务的高效学习与精准执行。实验表明，ManipTrans在成功率、保真度和效率上均超越了现有最先进方法。借助ManipTrans，我们将多个手-物体数据集迁移至机器人手，构建了DexManipNet，这是一个大规模数据集，涵盖了诸如笔帽盖合和瓶盖旋开等先前未探索的任务。DexManipNet包含3.3K个机器人操控片段，且易于扩展，为灵巧手的进一步策略训练提供了便利，并支持实际场景的部署应用。

DiET-GS：基于扩散先验与事件流辅助的运动去模糊3D高斯溅射
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Mar 31

BySeungjun Lee, Gim Hee Lee

从模糊的多视角图像中重建清晰的三维表示一直是计算机视觉领域长期存在的难题。近期研究尝试通过利用事件相机来增强运动模糊下的高质量新视角合成，得益于其高动态范围和微秒级的时间分辨率。然而，这些方法往往在恢复不准确的颜色或丢失细粒度细节方面表现欠佳。本文提出DiET-GS，一种结合扩散先验和事件流辅助的运动去模糊3D高斯溅射（3DGS）框架。我们的框架在两阶段训练策略中有效利用了无模糊事件流和扩散先验。具体而言，我们引入了一种新颖的框架，通过事件双重积分来约束3DGS，从而实现准确的颜色和清晰的细节。此外，我们提出了一种简单技术，利用扩散先验进一步增强边缘细节。在合成数据和真实数据上的定性与定量结果表明，与现有基线相比，我们的DiET-GS能够生成质量显著更优的新视角。项目页面请访问https://diet-gs.github.io。

MB-ORES：面向遥感视觉定位的多分支物体推理器
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Mar 31

ByKarim Radouane, Hanane Azzag, Mustapha lebbah

我们提出了一种统一框架，将目标检测（OD）与视觉定位（VG）技术整合应用于遥感（RS）影像处理。为了支持常规的目标检测并为视觉定位任务建立直观先验，我们利用指代表达数据对开放集目标检测器进行微调，将其视为一种部分监督的目标检测任务。在第一阶段，我们构建每幅图像的图表示，包含对象查询、类别嵌入及候选框位置。随后，我们的任务感知架构处理此图以执行视觉定位任务。该模型由两部分组成：（i）一个多分支网络，整合空间、视觉及类别特征以生成任务感知的候选框；（ii）一个对象推理网络，为各候选框分配概率，并通过软选择机制最终确定所指对象的定位。我们的模型在OPT-RSVG和DIOR-RSVG数据集上展现了卓越性能，相较于现有最先进方法取得了显著提升，同时保持了经典目标检测的能力。代码将发布于我们的资源库：https://github.com/rd20karim/MB-ORES。

指令A：一款企业级大型语言模型
Command A: An Enterprise-Ready Large Language Model

Apr 1