每日精选AI研究论文及翻译
近期,大型语言模型(LLMs)的进展加速了金融自然语言处理(NLP)及其应用的发展,然而现有基准测试仍局限于单语和单模态环境,往往过度依赖简单任务,未能反映现实世界金融交流的复杂性。我们推出了MultiFinBen,这是首个专为全球金融领域量身定制的多语言多模态基准测试,评估LLMs在多种模态(文本、视觉、音频)和语言环境(单语、双语、多语)下执行领域特定任务的能力。我们引入了两项创新任务:PolyFiQA-Easy和PolyFiQA-Expert,这是首个要求模型对混合语言输入进行复杂推理的多语言金融基准测试;以及EnglishOCR和SpanishOCR,这是首个嵌入OCR技术的金融问答任务,挑战模型从视觉文本金融文档中提取信息并进行推理。此外,我们提出了一种动态的、难度感知的选择机制,精心策划了一个紧凑且平衡的基准测试,而非简单聚合现有数据集。对22个顶尖模型的广泛评估显示,即便是最强大的模型,尽管具备通用的多模态和多语言能力,在面对金融领域复杂的跨语言和多模态任务时也表现出了显著的困难。MultiFinBen已公开发布,旨在促进金融研究和应用中的透明、可重复及包容性进步。
扩展测试时计算资源在提升大型语言模型(LLMs)推理能力方面已展现出显著成效。本研究中,我们首次系统性地探索了将测试时扩展方法应用于语言代理,并深入考察了其对提升其效能的程度。具体而言,我们探讨了多种测试时扩展策略,包括:(1)并行采样算法;(2)序列修订策略;(3)验证器与结果融合方法;(4)多样化探索策略。我们细致分析并剥离了不同设计策略在语言代理上实施测试时扩展的影响,得出以下发现:1. 扩展测试时计算资源能够提升代理的性能。2. 对于代理而言,掌握何时进行反思至关重要。3. 在多种验证与结果融合方法中,列表式方法表现最佳。4. 增加多样化的探索对代理任务执行具有积极影响。
近期,音频-文本大语言模型(LLMs)的进展为音乐理解与生成开辟了新途径。然而,现有基准测试范围有限,多依赖简化任务或多选评估,难以反映现实世界音乐分析的复杂性。我们重新诠释了一系列传统音乐信息检索(MIR)标注,将其转化为指令跟随格式,并推出了CMI-Bench——一个全面的音乐指令跟随基准,旨在评估音频-文本LLMs在多样化MIR任务上的表现。这些任务涵盖流派分类、情感回归、情感标注、乐器分类、音高估计、调性检测、歌词转录、旋律提取、演唱技巧识别、乐器演奏技巧检测、音乐标签、音乐描述以及(下)拍跟踪,反映了MIR研究的核心挑战。与以往基准不同,CMI-Bench采用与先前最先进MIR模型一致的标准化评估指标,确保与监督方法的直接可比性。我们提供了一个评估工具包,支持所有开源音频-文本LLMs,包括LTU、Qwen-audio、SALMONN、MusiLingo等。实验结果揭示了LLMs与监督模型之间的显著性能差距,以及它们在文化、时代和性别上的偏见,凸显了当前模型在处理MIR任务上的潜力与局限。CMI-Bench为评估音乐指令跟随建立了统一基础,推动了音乐感知LLMs的进步。
大语言扩散模型(Diffusion LLMs)已成为自然语言处理研究的重要焦点,大量工作致力于理解其可扩展性和下游任务表现。然而,其长上下文能力仍未被探索,缺乏系统分析或上下文扩展方法。在本研究中,我们首次系统性地比较了扩散LLMs与传统自回归LLMs的长上下文性能。我们首先发现扩散LLMs的一个独特特性:与自回归LLMs不同,它们在直接上下文外推时保持了显著的\textit{稳定困惑度}。此外,在“大海捞针”任务中,当上下文长度超过预训练长度时,自回归模型完全失败,而扩散LLMs则展现出独特的\textit{局部感知}现象,能够成功从最近的上下文片段中检索信息。我们通过旋转位置编码(RoPE)缩放理论解释了这两种现象。基于这些观察,我们提出了LongLLaDA,一种无需训练的方法,将LLaDA与基于NTK的RoPE外推相结合。我们的结果验证了既定的外推缩放定律在扩展扩散LLMs上下文窗口方面仍然有效。此外,我们识别出扩散LLMs在部分长上下文任务中优于自回归LLMs,而在其他任务中则表现不足。因此,本研究不仅为扩散LLMs建立了首个上下文外推方法,还提供了推进未来长上下文扩散LLMs研究所需的关键理论洞见和实证基准。
尽管在复杂推理方面取得了显著进展,当前的大型语言模型(LLMs)通常孤立运作——将每个问题视为独立尝试,而不积累或整合经验知识。相比之下,专家级问题解决者——如奥林匹克竞赛或编程比赛团队——则利用丰富的经验网络:吸收教练的指导,从过往问题中培养直觉,运用工具使用和库功能的知识,根据同伴的专业知识和经验调整策略,通过试错不断精炼推理,甚至在比赛期间也能从其他相关问题中学习。我们引入了Xolver,一个无需训练的多智能体推理框架,它为黑箱LLM配备了持久且不断进化的全局经验记忆。Xolver整合了多种经验模式,包括外部与自我检索、工具使用、协作互动、智能体驱动的评估以及迭代优化。通过在推理时学习相关策略、代码片段和抽象推理模式,Xolver避免了从零开始生成解决方案——标志着从孤立推理向经验感知型语言智能体的转变。基于开源权重和专有模型构建,Xolver持续超越专门化的推理智能体。即便采用轻量级骨干网络(如QWQ-32B),它也常常超越包括Qwen3-235B、Gemini 2.5 Pro、o3和o4-mini-high在内的先进模型。使用o3-mini-high,它在GSM8K(98.1%)、AIME'24(94.4%)、AIME'25(93.7%)、Math-500(99.8%)和LiveCodeBench-V5(91.6%)上创下新纪录——凸显了全局经验学习作为迈向具备专家级推理能力的通用智能体的关键一步。代码与数据可在https://kagnlp.github.io/xolver.github.io/获取。
可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLMs)推理能力的一种有前景的范式。然而,一个关键悖论笼罩着其有效性:经过RLVR调优的模型在寻找解决方案的Pass@K指标上往往表现不如基础模型,这引发了RLVR仅是在牺牲推理多样性的前提下重新加权现有推理路径的假设。在本研究中,我们通过识别问题的根源解决了这一矛盾:Pass@K指标本身作为推理衡量标准存在缺陷,因为它将可能源自不准确或不完整思维链(CoTs)的正确最终答案也计入了成绩。为此,我们引入了一个更为精确的评估指标——CoT-Pass@K,该指标要求推理路径和最终答案均需正确。我们提供了一个新的理论基础,形式化地阐述了RLVR与传统强化学习不同,其独特结构旨在激励逻辑完整性。我们的实证结果支持这一观点:使用CoT-Pass@K,我们观察到RLVR能够激励对所有K值下正确推理的泛化。此外,通过分析训练动态,我们发现这种增强的推理能力在训练早期便显现,并平稳地实现了泛化。我们的工作为RLVR的角色提供了清晰的视角,提出了更为可靠的评估方法,并证实了其真正推动机器推理发展的潜力。
GPT-4o类大型多模态模型(LMMs)的出现,推动了文本、视觉和语音模态融合的探索,以支持更为灵活的多模态交互。现有的LMMs通常沿序列维度拼接各模态的表示,并将其输入大型语言模型(LLM)骨干网络。尽管序列维度拼接在模态集成上简单直接,但它往往高度依赖大规模数据来学习模态对齐。本文旨在更有针对性地建模模态间关系,从而实现更高效、灵活的模态对齐。为此,我们提出了Stream-Omni,一个具备高效模态对齐能力的大型语言-视觉-语音模型,能够同时支持多种模态组合下的交互。Stream-Omni以LLM为骨干,根据视觉和语音与文本的关系进行对齐。对于在语义上与文本互补的视觉信息,Stream-Omni采用序列维度拼接实现视觉-文本对齐;对于在语义上与文本一致的语音信息,Stream-Omni引入基于CTC的层维度映射实现语音-文本对齐。通过这种方式,Stream-Omni能够以较少数据(尤其是语音数据)实现模态对齐,从而将文本能力迁移至其他模态。在多个基准测试上的实验表明,Stream-Omni在视觉理解、语音交互及基于视觉的语音交互任务中均表现出色。得益于层维度映射,Stream-Omni在语音交互过程中能同时提供中间文本输出(如ASR转录和模型响应),为用户带来全面的多模态体验。
视觉信息提取(VIE)将非结构化的文档图像转换为如JSON等结构化格式,这对于医疗应用(如报告分析和在线咨询)至关重要。传统方法依赖于OCR和语言模型,而端到端的多模态模型则直接生成JSON。然而,领域特定的模式和高昂的标注成本限制了它们在医疗VIE中的有效性。我们基于可验证奖励的强化学习(RLVR)框架,仅使用100个标注样本来应对这些挑战。我们的方法确保了数据集的多样性,通过平衡的精确率-召回率奖励机制减少幻觉并提高字段覆盖率,并采用创新的采样策略增强推理能力。通过使用RLVR方法微调Qwen2.5-VL-7B,我们在医疗VIE任务中实现了最先进的性能,显著提升了F1、精确率和召回率。尽管我们的模型在与医疗数据集相似的任务上表现出色,但在不相似的任务上性能下降,凸显了领域特定优化的必要性。案例研究进一步证明了在训练和推理过程中进行推理对VIE的价值。
在强化学习(RL)中,平衡探索与利用是一个核心目标。尽管近期在提升语言模型(LM)推理能力方面取得了进展,但大多数方法倾向于利用,且日益遭遇性能瓶颈。在本研究中,我们重新审视了熵——RL中探索的信号——并探讨其与LM中探索性推理的关系。通过实证分析,我们发现高熵区域与三类探索性推理行为之间存在显著的正相关关系:(1)决定或连接逻辑步骤的关键词,(2)如自我验证与修正等反思行为,以及(3)基础LM未充分探索的罕见行为。受此启发,我们对标准RL进行了最小化修改,仅增加一行代码:在优势函数中加入基于熵的项。与传统的最大熵方法通过促进不确定性来鼓励探索不同,我们通过促进更长、更深的推理链来鼓励探索。值得注意的是,即使在评估时采用极大的K值,我们的方法在Pass@K指标——LM推理能力的一个上界估计器——上仍取得了显著提升,从而推动了LM推理的边界。
现代人工智能面临的一大挑战是如何主要通过观察来理解世界并学习行动。本文探索了一种自监督方法,该方法将互联网规模的视频数据与少量交互数据(机器人轨迹)相结合,以开发能够理解、预测和规划物理世界的模型。我们首先在一个包含超过100万小时互联网视频的视频和图像数据集上预训练了一个无动作的联合嵌入预测架构——V-JEPA 2。V-JEPA 2在运动理解方面表现出色(在Something-Something v2数据集上达到77.3的top-1准确率),并在人类动作预测上取得了当前最佳性能(在Epic-Kitchens-100数据集上达到39.7的recall-at-5),超越了以往的任务专用模型。此外,在将V-JEPA 2与大型语言模型对齐后,我们在80亿参数规模上展示了多个视频问答任务的最优性能(例如,在PerceptionTest上达到84.0,在TempCompass上达到76.9)。最后,我们展示了如何通过使用Droid数据集中不到62小时的无标签机器人视频对潜在动作条件世界模型V-JEPA 2-AC进行后训练,将自监督学习应用于机器人规划任务。我们在两个不同实验室的Franka机械臂上零样本部署了V-JEPA 2-AC,并利用图像目标规划实现了物体的抓取和放置。值得注意的是,这一成果是在未从这些环境中的机器人收集任何数据,且未进行任何任务特定训练或奖励的情况下实现的。这项工作展示了如何通过从网络规模数据和少量机器人交互数据中进行自监督学习,获得一个能够在物理世界中进行规划的世界模型。
扩散模型和流模型已成为最先进的生成建模方法,但它们需要大量采样步骤。一致性模型能够将这些模型蒸馏为高效的一步生成器;然而,与基于流和扩散的方法不同,当增加步骤数量时,其性能不可避免地下降,这一点我们通过分析和实验均予以证明。流映射通过一步连接任意两个噪声级别,推广了这些方法,并在所有步骤计数下保持有效。本文中,我们引入了两种新的连续时间目标函数来训练流映射,并提出了额外的创新训练技术,从而推广了现有的一致性和流匹配目标。我们进一步证明,自动引导可以通过在蒸馏过程中使用低质量模型进行指导来提升性能,而通过对抗性微调还能获得额外提升,同时样本多样性损失最小。我们广泛验证了名为“对齐你的流”的流映射模型,在具有挑战性的图像生成基准测试中,使用小型高效的神经网络,在ImageNet 64x64和512x512上实现了最先进的少步生成性能。最后,我们展示了文本到图像的流映射模型,在文本条件合成中超越了所有现有的非对抗性训练的少步采样器。
近期,长链思维推理模型(Long Chain-of-Thought, CoT)在复杂任务上的性能取得了显著提升,但这些模型存在过度思考的问题,尤其是在处理简单问题时,会产生冗余的推理步骤。本文重新审视了长链与短链CoT模型的推理模式,发现短链CoT模式能够高效地提供简洁的推理,而长链CoT模式则在短链CoT模式难以应对的复杂场景中表现优异。为了让模型能够灵活运用这两种推理模式,我们提出了无问题微调(Question-Free Fine-Tuning, QFFT)方法,该方法在训练过程中移除输入问题,仅从长链CoT响应中学习。通过这种方式,模型能够自适应地采用两种推理模式:优先使用短链CoT模式,仅在必要时激活长链CoT模式。在多个数学数据集上的实验表明,QFFT将平均响应长度减少了50%以上,同时达到了与监督微调(Supervised Fine-Tuning, SFT)相当的性能。此外,在噪声、跨领域和低资源场景下,QFFT相较于SFT展现出更优越的性能。
我们推出了TestCase-Eval,这是一个用于系统评估大语言模型(LLMs)在测试用例生成方面表现的新基准。TestCase-Eval包含了来自Codeforces平台的500个算法问题及100,000个人工编写的解决方案。该基准聚焦于两大核心任务:(1) 故障覆盖率,衡量LLM生成的测试集如何有效探索多样化的输入场景,并覆盖广泛的潜在故障模式;(2) 故障暴露度,评估LLM能否设计出针对性的测试输入,以揭示特定错误代码实现。我们对19个领先的开源及专有LLM在TestCase-Eval上的表现进行了全面评估,深入剖析了它们在为算法问题生成有效测试用例方面的优势与局限。
分词处理为输入文本设定了固定的粒度,限定了语言模型处理数据的方式及其预测未来的范围。字节对编码(BPE)及类似方案一次性分割文本,构建静态词汇表,使模型受限于此选择。我们通过引入一种自回归的U-Net网络来缓解这种僵化,该网络在训练过程中学习嵌入自身的标记。网络读取原始字节,将其聚合成单词,再组合成词组,直至最多四个单词,从而获得序列的多尺度视角。在更深层次,模型需预测更远的未来——预见接下来的几个词而非单个字节——因此深层阶段聚焦于更广泛的语义模式,而早期阶段则处理细节。通过精心调整和控制预训练计算,浅层结构与强大的BPE基线表现相当,而更深层次结构展现出积极趋势。由于分词过程现内置于模型中,同一系统既能处理字符级任务,也能在低资源语言间传递知识。
硬件生态系统正迅速演进,跨不同指令集架构(ISAs)快速、灵活且准确地转换低级程序,以提升现有代码的可移植性与长期可用性,这一需求日益受到关注。在复杂指令集(CISC)与精简指令集(RISC)硬件架构之间进行转换,由于指令复杂度、内存模型及执行范式的根本差异,成为此类转换问题中尤为棘手的一类。本研究提出GG(Guaranteed Guess),一种以ISA为核心的转换管道,它结合了预训练大型语言模型(LLMs)的翻译能力与成熟软件测试结构的严谨性。我们的方法利用LLM生成从一个ISA到另一个ISA的候选翻译,并将这些翻译嵌入软件测试框架中,以建立对翻译结果的量化信心。我们在两个多样化数据集上评估了GG方法,确保单元测试代码覆盖率高于98%,并在HumanEval程序上实现了99%的功能/语义正确性,在BringupBench程序上达到49%。此外,我们将GG与苹果硅上的Rosetta 2框架进行了对比,结果显示,GG转换后的代码在运行速度上快1.73倍,能效提升1.47倍,内存使用效率提高2.41倍,充分证明了GG在实际CISC到RISC转换任务中的有效性。我们将开源代码、数据、模型及基准测试,为ISA级代码翻译研究奠定共同基础。
视觉-语言-动作(VLA)模型,尤其是基于扩散架构的模型,展现了在具身智能领域的变革潜力,但其广泛存在的固有冗余和推理时的高计算与内存需求严重制约了其发展。现有的加速工作往往针对孤立的低效环节,这类零散解决方案通常无法全面应对整个VLA流程中多样化的计算与内存瓶颈,从而限制了实际部署的可行性。我们提出了EfficientVLA,一个结构化且无需训练的推理加速框架,通过协同利用多方面的冗余,系统性地消除这些障碍。EfficientVLA整合了三种针对性策略:(1) 基于层间冗余分析,从语言模块中剪枝功能上无关紧要的层;(2) 通过任务感知策略优化视觉处理路径,选择一组紧凑且多样化的视觉标记,在任务关键性与信息覆盖之间取得平衡;(3) 在基于迭代扩散的动作头中,通过策略性地缓存和重用关键中间特征,缓解时间上的计算冗余。我们将该方法应用于标准VLA模型CogACT,在SIMPLER基准测试中实现了1.93倍的推理加速,并将浮点运算量降至28.9%,成功率仅下降0.6%。
大型推理模型(LRMs)已取得显著成功,但常存在生成冗长且不必要的推理链的问题。我们将此问题的核心归结为“无效思考”——模型在得出正确答案后,往往会反复核查其工作。针对这一特定低效现象,我们超越了一般性的效能与效率原则,提出了两个更为精细的新原则:简洁性(Brevity),主张消除冗余;充分性(Sufficiency),确保关键推理步骤得以保留。基于这些原则,我们引入了LC-R1,一种基于群体相对策略优化(GRPO)的训练后方法。LC-R1创新性地结合了整体简洁性的长度奖励与专门设计用于去除无效思考过程的压缩奖励。在多个推理基准上的广泛实验表明,LC-R1实现了序列长度的大幅缩减(约50%),而准确率仅轻微下降(约2%),在帕累托前沿上找到了一个优先高压缩的有利平衡点。我们的分析进一步验证了LC-R1的鲁棒性,并为开发更强大且计算效率更高的LRMs提供了宝贵见解。代码已发布于https://github.com/zxiangx/LC-R1。
我们推出xbench,这是一套动态的、与专业领域对齐的评估体系,旨在弥合AI智能体能力与现实世界生产力之间的差距。现有基准测试往往聚焦于孤立的技术技能,可能无法准确反映智能体在专业场景中创造的经济价值。为此,xbench针对具有商业重要性的领域,由行业专家定义评估任务。我们的框架创建了与生产力价值高度相关的指标,能够预测技术市场契合度(TMF),并支持追踪产品能力随时间的演变。作为初步实施,我们展示了两个基准测试:招聘与营销。在招聘方面,我们从真实猎头业务场景中收集了50项任务,评估智能体在公司映射、信息检索和人才搜寻方面的能力。在营销方面,我们评估智能体根据广告主需求匹配影响者的能力,通过836位候选影响者库,针对50项广告主需求进行性能评估。我们展示了当代领先智能体的初步评估结果,为这些专业领域建立了基准。我们持续更新的评估集和评估结果可在https://xbench.org获取。
大型语言模型(LLMs)利用外部工具的能力使其能够应对日益多样化的任务。然而,随着任务变得更加复杂且长期化,复杂的工具使用过程可能引发各种意外错误。因此,如何有效处理这些错误,包括识别、诊断和从中恢复,已成为推动工具学习发展的关键研究方向。在本研究中,我们首先深入分析了在多个竞争性工具评估基准上函数调用过程中遇到的错误类型。基于此,我们引入了CRITICTOOL,一个专为工具学习设计的全面批判评估基准。通过采用一种新颖的数据集构建进化策略,CRITICTOOL涵盖了不同复杂度的多样化工具使用错误,更好地反映了现实世界场景。我们在CRITICTOOL上进行了广泛的实验,验证了所构建基准策略的泛化性和有效性。同时,我们还深入分析了不同LLMs在工具反思能力上的表现,为LLMs工具学习领域提供了新的视角。代码可在https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}获取。
我们展示了如何利用低质量、合成以及分布外图像来提升扩散模型的质量。通常,扩散模型是在经过精心筛选的数据集上训练的,这些数据集源自网络及其他来源中高度过滤的数据池。我们揭示,那些常被舍弃的低质量图像中蕴含着巨大价值。为此,我们提出了Ambient Diffusion Omni,一个简洁而原则性的框架,用于训练扩散模型,使其能在训练过程中从所有可用图像中提取有效信号。该框架利用了自然图像的两个特性——频谱功率律衰减和局部性。我们首先通过成功训练使用高斯模糊、JPEG压缩和运动模糊等合成损坏图像增强的扩散模型,验证了该框架的有效性。随后,我们应用该框架在ImageNet上取得了领先的FID(弗雷歇起始距离)成绩,并在文本到图像生成任务中显著提升了图像质量和多样性。核心洞见在于,噪声能够缓解期望的高质量分布与实际观察到的混合分布之间的初始偏斜。通过分析在扩散时间尺度上从有偏数据与有限无偏数据中学习的权衡,我们为该方法提供了严格的理论依据。
我们研究利用稀疏自编码器(SAEs)实现理论支撑的特征恢复,以解释大型语言模型(LLMs)所面临的挑战。现有的SAE训练算法往往缺乏严格的数学保证,并存在超参数敏感性和不稳定性等实际限制。为解决这些问题,我们首先提出了一种新颖的统计框架来处理特征恢复问题,该框架通过将多义特征建模为底层单义概念的稀疏混合,引入了一种新的特征可识别性概念。基于此框架,我们提出了一种基于“偏置自适应”的新SAE训练算法,该技术通过自适应调整神经网络偏置参数来确保适当的激活稀疏性。我们理论证明了,当输入数据来自我们提出的统计模型时,该算法能正确恢复所有单义特征。此外,我们开发了一种改进的实证变体——组偏置自适应(GBA),并展示了其在应用于参数高达15亿的LLMs时,相较于基准方法的优越性能。本工作通过提供首个具备理论恢复保证的SAE算法,为揭开SAE训练的神秘面纱迈出了基础性的一步,从而通过增强的机制可解释性,推动了更加透明和可信赖的AI系统的发展。
大型语言模型(LLMs)的迅速多样化催生了LLM路由器的开发,这些路由器负责将用户查询分配给最合适的模型。然而,现有的LLM路由器通常执行单轮、一对一的映射(即,将每个查询单独分配给一个模型),这限制了它们处理需要多个LLM互补优势的复杂任务的能力。本文中,我们提出了Router-R1,一个基于强化学习(RL)的框架,将多LLM路由与聚合建模为一个序列决策过程。Router-R1将路由器本身实例化为一个能力强大的LLM,利用其推理能力在“思考”动作(内部审议)与“路由”动作(动态模型调用)之间交替进行,并将每个响应整合到其不断演进的上下文中。为了指导学习,我们采用了一个轻量级的基于规则的奖励机制,包括格式奖励、最终结果奖励以及一个新颖的成本奖励,用于性能和成本权衡优化,从而开辟了一条通过RL优化性能-成本权衡的路径。Router-R1还仅基于简单的模型描述符(如定价、延迟和示例性能)进行条件设定,实现了对未见模型选择的强大泛化能力。在七个通用和多跳问答基准上的实验表明,Router-R1在多个强基线之上表现优异,实现了卓越的性能,同时保持了强大的泛化能力和成本管理。代码可在https://github.com/ulab-uiuc/Router-R1获取。
时空定位对于跨多个领域的精确交互至关重要,从生物研究到自主导航及交互界面。当前基于视频的方法虽然在追踪方面表现出色,却缺乏大型语言模型所具备的复杂推理能力,这限制了其上下文理解与泛化能力。我们推出了VideoMolmo,一个专为基于文本描述的细粒度时空指向而定制的大型多模态模型。基于Molmo架构,VideoMolmo引入了一个时间模块,利用注意力机制将每一帧与前序帧相条件,确保时间一致性。此外,我们新颖的时间掩码融合管道采用SAM2进行双向点传播,显著提升了视频序列间的连贯性。这一两步分解策略——首先利用大语言模型生成精确指向坐标,随后依赖序列掩码融合模块生成连贯分割——不仅简化了语言模型的任务,还增强了可解释性。鉴于缺乏合适的数据集,我们精心构建了一个包含72,000个视频-字幕对、标注有100,000个物体点的综合数据集。为评估VideoMolmo的泛化能力,我们推出了VPoS-Bench,一个涵盖五个现实场景的挑战性分布外基准:细胞追踪、第一人称视角、自动驾驶、视频-GUI交互及机器人学。我们还在参考视频对象分割(Refer-VOS)和推理VOS任务上评估了模型。与现有模型相比,VideoMolmo在时空指向准确性和推理能力上均有显著提升。我们的代码和模型已公开于https://github.com/mbzuai-oryx/VideoMolmo。
我们推出AgentSynth,这是一个可扩展且成本效益高的自动化流程,用于为通用计算机使用代理合成高质量的任务和轨迹数据集。利用信息不对称性,AgentSynth构建了在生成时简单但在组合成长周期任务时显著更具挑战性的子任务,从而能够创建超过6,000个多样且真实的任务。我们的流程始于一个由角色引导的基于LLM的任务提议器,随后是一个执行代理,它完成任务并记录轨迹。这一过程反复迭代,形成一系列子任务,然后由另一个代理汇总成难度可控的复合任务。AgentSynth的一个关键优势在于其能够通过改变子任务数量精确调节任务复杂度。实证评估显示,最先进的LLM代理在难度级别1时成功率仅为18%,而在级别6时骤降至4%,凸显了该基准的难度和区分能力。此外,我们的流程实现了每轨迹平均0.60美元的低成本,远低于人工标注的费用。我们的代码和数据已在https://github.com/sunblaze-ucb/AgentSynth 公开。
我们推出Ring-lite,这是一款基于专家混合(Mixture-of-Experts, MoE)架构的大型语言模型,通过强化学习(Reinforcement Learning, RL)优化,以实现高效且稳健的推理能力。该模型构建于公开可用的Ling-lite模型之上,后者拥有168亿参数,其中27.5亿为激活参数。我们的方法在多个具有挑战性的基准测试(如AIME、LiveCodeBench、GPQA-Diamond)上,仅激活了同类模型所需参数的三分之一,便达到了当前最先进(State-of-the-Art, SOTA)小规模推理模型的性能水平。为此,我们引入了一种结合蒸馏与强化学习的联合训练流程,揭示了MoE RL训练中未被充分记录的挑战。首先,我们识别出RL训练过程中的优化不稳定性,并提出了一种新颖的方法——约束上下文计算策略优化(Constrained Contextual Computation Policy Optimization, C3PO),通过算法-系统协同设计的方法,提升了训练稳定性并改善了计算吞吐量。其次,我们实证表明,基于熵损失而非验证指标选择蒸馏检查点用于RL训练,能在后续RL训练中实现更优的性能-效率权衡。最后,我们开发了一种两阶段训练范式,以协调多领域数据的整合,解决了混合数据集训练中出现的领域冲突问题。我们将发布该模型、数据集及代码。
人类移动模拟在众多现实应用中扮演着关键角色。近期,为克服传统数据驱动方法的局限,研究者们探索利用大型语言模型(LLMs)的常识知识与推理能力来加速人类移动模拟。然而,这些方法存在若干关键不足,包括对城市空间建模不足,以及与个体移动模式和集体移动分布融合欠佳。针对这些挑战,我们提出了CityGPT驱动的移动模拟代理框架(CAMS),该框架依托基于语言的城市基础模型,模拟城市空间中的人类移动。CAMS包含三大核心模块:MobExtractor用于提取模板移动模式并根据用户画像合成新模式;GeoGenerator在考虑集体知识的基础上生成锚点,并利用增强版CityGPT生成候选城市地理空间知识;TrajEnhancer则基于移动模式检索空间知识,并通过DPO生成与真实轨迹偏好对齐的轨迹。在真实世界数据集上的实验表明,CAMS在不依赖外部提供的地理空间信息的情况下,实现了卓越的性能。此外,通过全面建模个体移动模式与集体移动约束,CAMS生成了更为真实且合理的轨迹。总体而言,CAMS开创了一种将代理框架与具备城市知识的LLMs相结合的人类移动模拟新范式。
我们研究了基于后缀的越狱攻击——这是一类针对大型语言模型(LLMs)的强大攻击手段,通过优化对抗性后缀来绕过安全对齐机制。聚焦于广泛使用的基础性GCG攻击(Zou等人,2023),我们观察到不同后缀的有效性存在差异:某些后缀展现出显著的普适性,能够泛化至众多未见过的有害指令,而其他则不然。首先,我们揭示了GCG攻击的有效性源于一个浅层但关键的机制,该机制建立在从对抗性后缀到生成前最终聊天模板令牌的信息流之上。通过量化这一机制在生成过程中的主导作用,我们发现GCG不规则且激进地劫持了上下文处理过程。关键的是,我们将这种劫持与普适性现象联系起来,发现更具普适性的后缀往往具有更强的劫持能力。随后,我们展示了这些洞见具有实际应用价值:GCG的普适性可以在不增加计算成本的情况下高效提升(在某些情况下可达5倍),同时也能被精准缓解,至少将攻击成功率减半,而仅带来最小的效用损失。我们在http://github.com/matanbt/interp-jailbreak上发布了代码与数据。
现代机器学习面临的最深刻挑战之一,在于如何有效处理稀有和代表性不足特征的长尾分布问题。大型通用模型虽经多任务训练,但在高频使用场景中表现最佳。训练完成后,模型难以针对训练语料中代表性不足的特定用例进行优化。依赖提示工程或少量示例来最大化特定测试案例的输出质量,往往令人沮丧,因为模型可能对微小变化极为敏感,以不可预测的方式响应,或依赖固定系统提示来维持性能。本研究中,我们提出:“能否优化训练协议,以在推理时同时提升对代表性不足用例的可控性和性能?”我们重新审视训练与推理技术之间的界限,旨在提升长尾性能的同时,为用户提供一组模型训练时即学会响应的控制杠杆。我们构建了详细的数据特征与任务来源分类体系,以在推理时显式控制生成属性并隐式条件化生成过程。我们微调基础模型,使其能自动推断这些标记,从而在推理时使它们成为可选。这一原则性强且灵活的方法显著提升了性能,特别是在训练分布长尾部分的示例上。使用我们的标记,我们在开放式生成质量上平均提升了5.7%的胜率,而在代表性不足的领域中,提升幅度超过9.1%。此外,在如代码修复等代表性不足的任务上,我们观察到相对提升高达14.1%,在遵循长度指令的评估中,绝对改进达到35.3%。
对齐不再是一种奢侈,而是必需品。随着大型语言模型(LLMs)进入教育、医疗、治理和法律等高风险领域,其行为必须可靠地体现与人类价值观一致的安全约束。然而,当前的评估主要依赖于行为代理指标,如拒绝率、G-Eval分数和毒性分类器,这些指标都存在关键盲点。对齐模型往往容易受到越狱攻击、生成随机性和对齐伪造的影响。 为解决这一问题,我们引入了对齐质量指数(AQI)。这一新颖的几何且提示不变的度量方法,通过分析潜在空间中安全与不安全激活的分离,实证评估LLM的对齐情况。AQI结合了戴维斯-布尔丁评分(DBS)、邓恩指数(DI)、谢-贝尼指数(XBI)和卡林斯基-哈拉巴斯指数(CHI)等多种公式的测量,捕捉聚类质量,以检测隐藏的错位和越狱风险,即使输出看似合规。AQI还作为对齐伪造的早期预警信号,提供了一种稳健的解码不变工具,用于行为无关的安全审计。 此外,我们提出了LITMUS数据集,以促进在这些挑战性条件下的稳健评估。在LITMUS上对不同模型(在DPO、GRPO和RLHF条件下训练)进行的实证测试表明,AQI与外部评判者具有相关性,并能揭示拒绝指标遗漏的漏洞。我们公开了我们的实现,以促进该领域的未来研究。
情境强化学习(In-context Reinforcement Learning, ICRL)作为一种通过提示条件调整RL代理以适应下游任务的新兴范式,展现出巨大潜力。然而,在RL领域充分利用情境学习仍面临两大挑战:状态-动作-奖励数据固有的多模态特性,以及决策任务的多样性与异质性。为应对这些挑战,我们提出了T2MIR(面向情境RL的令牌与任务级专家混合模型),这一创新框架将专家混合模型(Mixture-of-Experts, MoE)的架构优势引入基于Transformer的决策模型中。T2MIR以前馈层为替代,构建了两层并行结构:令牌级MoE,旨在捕捉跨多模态输入令牌的独特语义;任务级MoE,则将多样化任务路由至专门专家,以管理广泛的任务分布,同时缓解梯度冲突。为增强任务级路由能力,我们引入了一种对比学习方法,最大化任务与其路由表示间的互信息,从而更精准地捕捉任务相关信息。两个MoE组件的输出被拼接后输入下一层。全面实验表明,T2MIR显著提升了情境学习能力,并超越了多种基线模型。我们将MoE的潜力与前景带入了ICRL领域,提供了一种简单且可扩展的架构增强方案,推动ICRL向语言与视觉社区取得的成就更进一步迈进。代码已发布于https://github.com/NJU-RL/T2MIR。
蚊媒疾病构成全球重大健康威胁,亟需早期发现并主动控制孳生地以预防疫情爆发。本文提出VisText-Mosquito,一个融合视觉与文本数据的多模态数据集,旨在支持蚊虫孳生地分析的自动化检测、分割及推理。该数据集包含1,828张用于目标检测的标注图像、142张用于水面分割的图像,以及与每张图像关联的自然语言推理文本。在目标检测任务中,YOLOv9s模型取得了最高精度0.92926和mAP@50达0.92891;而YOLOv11n-Seg在分割任务中实现了0.91587的精度和0.79795的mAP@50。对于推理生成,我们微调后的BLIP模型最终损失为0.0028,BLEU得分54.7,BERTScore 0.91,ROUGE-L 0.87。此数据集与模型框架凸显了“预防胜于治疗”的主题,展示了基于AI的检测如何主动应对蚊媒疾病风险。数据集及实现代码已公开于GitHub:https://github.com/adnanul-islam-jisun/VisText-Mosquito。
本研究提出了一种可推广的框架,旨在将相对深度转换为度量深度。当前的单目深度估计方法主要分为度量深度估计(MMDE)和相对深度估计(MRDE)。MMDE在度量尺度上估计深度,但通常局限于特定领域。MRDE在不同领域间泛化能力强,但存在尺度不确定性,阻碍了下游应用。为此,我们致力于构建一个框架,以解决尺度不确定性并将相对深度转换为度量深度。先前的方法利用语言作为输入,估计两个因子进行重缩放。我们的方法TR2M,同时采用文本描述和图像作为输入,估计两个重缩放图,在像素级别将相对深度转换为度量深度。通过跨模态注意力模块融合两种模态的特征,以更好地捕捉尺度信息。设计了一种策略来构建并筛选置信的伪度量深度,以实现更全面的监督。我们还开发了面向尺度的对比学习,利用深度分布作为指导,强化模型学习与尺度分布一致的内在知识。TR2M仅利用少量可训练参数,在多个领域的数据集上进行训练,实验不仅展示了TR2M在已知数据集上的优异性能,还揭示了其在五个未见数据集上的卓越零样本能力。我们展示了在语言辅助下,逐像素将相对深度转换为度量深度的巨大潜力。(代码已开源:https://github.com/BeileiCui/TR2M)
开源基础模型已迅速获得广泛采用与发展,为跨领域提供了强大的通用能力。然而,针对特定领域或个性化任务对大型基础模型进行微调,由于远超推理所需的内存开销,对大多数用户而言仍成本过高。我们提出了EMLoC,一种基于模拟器的内存高效微调框架,结合LoRA校正技术,使得模型微调能在与推理相同的内存预算内完成。EMLoC通过在小规模下游校准集上采用激活感知的奇异值分解(SVD)构建任务特定的轻量级模拟器。随后,通过LoRA在此轻量级模拟器上进行微调。为解决原始模型与压缩模拟器之间的偏差,我们提出了一种新颖的补偿算法,用于校正微调后的LoRA模块,使其能够无缝融入原始模型进行推理。EMLoC支持灵活的压缩比和标准训练流程,使其能适应广泛的应用场景。大量实验表明,EMLoC在多个数据集和模态上均优于其他基线方法。更为显著的是,无需量化处理,EMLoC便能在单块24GB消费级GPU上实现38B模型的微调,为个体用户带来了高效且实用的模型适配方案。
图检索增强生成(GraphRAG)通过显式建模知识关系,有效提升了外部知识整合能力,从而增强了大型语言模型(LLMs)在专业领域的事实准确性和生成质量。然而,现有方法存在两个固有局限:1)信息聚合效率低下:它们依赖单一代理和固定迭代模式,难以自适应地捕捉图数据中的多层次文本、结构和度信息。2)推理机制僵化:采用预设推理方案,无法动态调整推理深度,也无法实现精确的语义校正。为克服这些局限,我们提出了基于多代理协作的GraphRAG方法——Graph Counselor。该方法利用自适应图信息提取模块(AGIEM),其中规划、思考和执行代理协同工作,精确建模复杂图结构并动态调整信息提取策略,解决了多层次依赖建模和自适应推理深度的难题。此外,多视角自反思(SR)模块通过自反思和逆向推理机制,提升了推理结果的准确性和语义一致性。实验表明,Graph Counselor在多项图推理任务中优于现有方法,展现出更高的推理准确性和泛化能力。我们的代码已发布于https://github.com/gjq100/Graph-Counselor.git。
在现实世界中部署大型复杂策略时,需要具备根据情境需求调整策略的能力。最常见的调整方法,如目标条件化,通常要求机器人策略在训练时考虑到测试阶段的目标分布。为了克服这一限制,我们提出了DynaGuide,一种在扩散去噪过程中利用外部动力学模型进行引导的扩散策略调整方法。DynaGuide将动力学模型与基础策略分离,这带来了多项优势,包括能够朝向多个目标进行调整、增强基础策略中表现不足的行为,以及在低质量目标下保持鲁棒性。独立的引导信号还使得DynaGuide能够直接应用于现成的预训练扩散策略。通过一系列模拟和真实实验,我们展示了DynaGuide相较于其他调整方法的性能与特点,在一组CALVIN关节任务中实现了平均70%的调整成功率,并在低质量目标引导下,其表现优于目标条件化方法5.4倍。此外,我们还成功引导了一款现成的真实机器人策略,使其表现出对特定物体的偏好,甚至创造出新颖行为。更多视频和详情请访问项目网站:https://dynaguide.github.io。