每日精选AI研究论文及翻译
代理强化学习(Agentic RL)的兴起标志着从传统应用于大语言模型(LLM RL)的强化学习向一种新范式的转变,将大语言模型从被动的序列生成器重新定义为嵌入复杂动态世界中的自主决策代理。本综述通过对比LLM-RL中简化的单步马尔可夫决策过程(MDPs)与定义Agentic RL的时间扩展、部分可观测的马尔可夫决策过程(POMDPs),正式阐述了这一概念转变。基于此,我们提出了一个全面的双重分类体系:一类围绕核心代理能力组织,包括规划、工具使用、记忆、推理、自我改进和感知;另一类则围绕这些能力在多样化任务领域中的应用展开。我们的核心论点是,强化学习是将这些能力从静态的启发式模块转化为适应性强、鲁棒的代理行为的关键机制。为了支持和加速未来研究,我们将开源环境、基准测试和框架的现状整合成一份实用指南。通过综合五百余篇近期文献,本综述勾勒了这一快速发展领域的轮廓,并强调了将塑造可扩展、通用人工智能代理发展的机遇与挑战。
图形用户界面(GUI)自主智能体的开发在人工智能领域面临重大挑战。尽管近期原生智能体模型通过端到端学习统一感知、推理、行动和记忆取得了进展,但在数据可扩展性、多轮强化学习(RL)、纯GUI操作的局限性以及环境稳定性方面仍存在开放性问题。本技术报告介绍了UI-TARS-2,一种以GUI为中心的原生智能体模型,通过系统化的训练方法应对这些挑战:用于可扩展数据生成的数据飞轮、稳定的多轮RL框架、集成文件系统和终端的混合GUI环境,以及用于大规模部署的统一沙盒平台。实证评估表明,UI-TARS-2相较于其前身UI-TARS-1.5取得了显著提升。在GUI基准测试中,它在Online-Mind2Web上达到88.2分,OSWorld上47.5分,WindowsAgentArena上50.6分,AndroidWorld上73.3分,超越了Claude和OpenAI智能体等强劲基线。在游戏环境中,它在15款游戏套件中平均标准化得分为59.8,约为人类水平的60%,并在LMGame-Bench上与前沿专有模型(如OpenAI o3)保持竞争力。此外,该模型能够泛化至长程信息检索任务和软件工程基准测试,展现了其在多样化智能体任务中的鲁棒性。对训练动态的详细分析进一步揭示了在大规模智能体RL中实现稳定性和效率的洞见。这些结果凸显了UI-TARS-2在推进GUI智能体技术状态方面的潜力,并展示了其在现实世界交互场景中的强大泛化能力。
大型语言模型(LLMs)通过与外部工具交互,能显著提升其推理能力,这一范式被称为工具集成推理(Tool-Integrated Reasoning, TIR)。然而,将TIR扩展至多轮交互场景,并采用强化学习(Reinforcement Learning, RL)进行训练时,常因训练不稳定和性能崩溃而受阻。我们发现,这种不稳定性主要源于外部工具反馈导致的分布偏移,进而生成低概率的token。这一问题在连续轮次中累积,引发灾难性的梯度范数爆炸,扰乱训练进程。为应对这一挑战,我们提出了SimpleTIR,一种即插即用的算法,旨在稳定多轮TIR训练。其核心策略是识别并过滤掉包含无效轮次(即未生成代码块或最终答案的轮次)的轨迹。通过将这些有问题的轨迹从策略更新中移除,SimpleTIR有效阻断了有害的高幅值梯度,从而稳定了学习动态。大量实验表明,SimpleTIR在具有挑战性的数学推理基准测试中达到了最先进的性能,特别是在基于Qwen2.5-7B基础模型的情况下,将AIME24得分从纯文本基线的22.1显著提升至50.5。此外,通过避免监督微调的限制,SimpleTIR鼓励模型发现多样且复杂的推理模式,如自我修正和交叉验证。
在视觉-语言建模领域,评判模型通常被训练用于评估输出——赋予标量分数或成对偏好——而非生成响应。这种与负责生成响应的策略模型的分离是如此根深蒂固,以至于评判模型很少被考虑直接用于策略执行。在本研究中,我们挑战了这一传统。我们提出将带有偏好标签的评判数据集重组为可验证的训练信号,并直接在基础生成模型上进行强化学习,从而产生了LLaVA-Critic-R1,这是一个多模态评判模型,旨在优化偏好判断的同时保留完整的生成能力。令人惊讶的是,LLaVA-Critic-R1不仅作为顶级评判模型脱颖而出,还成为了一款具有竞争力的策略模型——在26个视觉推理与理解基准测试中,与使用领域内数据训练的专业推理视觉语言模型(VLMs)相比,它匹配甚至超越了这些模型,相较于其基础模型(Qwen-2.5-VL-7B)平均提升了+5.7%。将这一方法扩展到现有的强大推理VLMs上,我们得到了LLaVA-Critic-R1+,它在不牺牲评判质量的前提下进一步提升了策略性能,在7B规模上实现了MMMU基准测试的71.9分,达到了当前最先进水平。最后,我们展示了增强的评判能力对推理的益处:在测试时应用自我评判,无需额外训练,就在五个代表性推理任务上平均提升了+13.8%。我们的结果表明,基于评判数据的强化学习训练能够产生一个在评估与生成两方面均表现出色的统一模型,为构建可扩展、自我改进的多模态系统提供了一条简洁的路径。
可验证奖励的强化学习(RLVR)在提升大语言模型推理能力方面已展现出显著成效,但局限于单轮交互且未整合工具使用。尽管近期出现了面向多轮工具交互的代理式强化学习结合工具使用(ARLT)方法,现有研究多开发任务专用代码库,存在碎片化、同步执行瓶颈及跨领域扩展性受限等问题。这些低效性阻碍了更广泛的社区采用与算法创新。我们推出VerlTool,一个通过系统设计原则解决上述局限的统一模块化框架。VerlTool贡献了四大关键点:(1) 与VeRL上游对齐,确保兼容性与简化维护;(2) 通过标准化API统一工具管理,支持包括代码执行、搜索、SQL数据库及视觉处理在内的多种模态;(3) 异步执行策略,消除同步瓶颈,实现近2倍加速;(4) 全面评估,在6个ARLT领域展现竞争力。本框架将ARLT形式化为包含多模态观察令牌(文本/图像/视频)的多轮轨迹,超越了单轮RLVR范式。我们在数学推理、知识问答、SQL生成、视觉推理、网络搜索及软件工程任务上训练并评估模型,取得与专用系统相当的成绩,同时提供统一的训练基础设施。模块化插件架构支持快速工具集成,仅需轻量级Python定义,大幅降低开发负担,为工具增强的RL研究奠定可扩展基础。代码已开源,地址为https://github.com/TIGER-AI-Lab/verl-tool。
视频多模态大语言模型(Video-MLLMs)在视频理解领域取得了显著进展。然而,它们仍易产生与视频输入不一致或无关的幻觉内容。以往的视频幻觉基准主要针对短视频,将幻觉归因于强语言先验、缺失帧或视觉编码器引入的视觉-语言偏差等因素。虽然这些原因确实解释了短视频中的大多数幻觉,但它们仍过于简化了幻觉的成因。有时,模型会生成错误的输出,但帧级语义却是正确的。我们将这种类型的幻觉称为语义聚合幻觉(Semantic Aggregation Hallucination, SAH),它出现在将帧级语义聚合为事件级语义组的过程中。鉴于SAH在长视频中因跨多个事件的语义复杂性增加而变得尤为关键,有必要分离并深入研究这类幻觉的成因。为解决上述问题,我们推出了首个专注于长视频幻觉的基准ELV-Halluc,从而系统性地研究SAH。我们的实验证实了SAH的存在,并表明其随语义复杂性增加而加剧。此外,我们发现模型在语义快速变化时更易产生SAH。我们还探讨了缓解SAH的潜在方法,证明位置编码策略有助于减轻SAH,并进一步采用DPO策略增强模型区分事件内和跨事件语义的能力。为此,我们构建了一个包含8K对抗数据对的数据集,并在ELV-Halluc和Video-MME上均取得了改进,包括SAH比率大幅降低27.7%。
高质量标注数据对于训练精确的文档转换模型至关重要,尤其是在处理表格、公式和多栏文本等复杂格式的领域时。然而,手动标注既昂贵又耗时,而利用现有模型进行自动标注在处理此类复杂场景时往往缺乏准确性。因此,通过从教师模型中蒸馏输出来训练学生模型,会显著限制其在现实应用中的表现。本文提出了一种完全自动化、无需蒸馏的两阶段框架,用于构建能够处理多种文档格式和布局的高质量文档提取数据集和模型。在第一阶段,我们引入了一种生成大规模多样化合成数据的方法,使模型能够以统一格式提取关键元素,并具备强大的初始性能。在第二阶段,我们提出了一种自我改进方法,进一步使最初在合成数据上训练的模型适应真实世界的文档。具体而言,我们首先使用微调后的模型对真实文档进行标注,然后应用一系列过滤策略验证标注质量,最后在验证过的数据集上重新训练模型。通过迭代重复这一过程,我们逐步提升了模型的转换能力以及生成数据的质量。我们训练了一个公开的POINTS-1.5模型,获得了POINTS-Reader,该模型在性能上超越了许多现有公开和专有的同类或更大规模模型。我们的模型可在https://github.com/Tencent/POINTS-Reader获取。
随着大型语言模型(LLMs)在对话和推理能力上的不断进步,其在医疗保健领域的实际应用已成为一项关键研究焦点。然而,医疗LLMs在静态基准测试(如USMLE)上的表现与其在真实世界临床决策中的实用性之间存在显著差距。这种差异源于传统考试未能捕捉到医疗咨询的动态交互特性。为应对这一挑战,我们引入了一种新颖的动态验证框架,该框架超越了静态答案验证器,建立了一个大规模、高保真的交互式强化学习系统。我们的框架包含两个关键组件:利用去识别化医疗记录创建真实临床环境的患者模拟器,以及动态生成多维评估指标的临床评分标准生成器。在此基础上,我们开发了Baichuan-M2,这是一个拥有320亿参数的医疗增强推理模型,通过采用改进的群体相对策略优化(GRPO)算法的多阶段强化学习策略进行训练。在HealthBench上的评估显示,Baichuan-M2超越了所有其他开源模型及大多数先进的闭源模型,在极具挑战性的HealthBench Hard基准测试中得分超过32分——此前仅有GPT-5达到这一水平。我们的工作表明,强大的动态验证系统对于将LLM能力与实际临床应用对齐至关重要,为医疗AI部署在性能与参数权衡方面确立了新的帕累托前沿。
基于自注意力机制的Transformer架构已成为序列建模任务的事实标准。然而,其核心计算原语随序列长度呈二次方增长(O(N^2)),在处理长上下文时形成了显著的瓶颈。本文提出了一种全新的、完全并行的序列建模架构——门控关联记忆(GAM)网络,该架构在序列长度上展现出线性复杂度(O(N))。GAM模块以两条并行路径取代了自注意力层:一条因果卷积路径,用于高效捕捉局部、位置依赖的上下文;另一条并行关联记忆检索机制,用于建模全局、基于内容的模式。这两条路径通过门控机制动态融合,使模型能够灵活地为每个令牌结合局部与全局信息。我们从零开始实现了GAM,并在WikiText-2基准测试中与标准Transformer模型及现代线性时间基线(Mamba)进行了严格的对比分析,同时在TinyStories数据集上与Transformer进行了比较。实验结果表明,GAM在训练速度上始终更快,超越了两个基线,并在所有数据集上实现了更优或具有竞争力的最终验证困惑度,确立了其作为序列建模高效替代方案的潜力。
近年来,大型语言模型(LLMs)的发展取得了显著进展,通过多模态大型语言模型(MLLMs)将其能力扩展至多模态任务。然而,由于视频的动态性和信息密集性,视频理解仍是一个具有挑战性的领域。现有模型在处理视频内容时,难以在空间分辨率和时间覆盖范围之间取得平衡。我们提出了Keye-VL-1.5,通过三项关键创新解决了视频理解中的基本挑战。首先,我们引入了一种新颖的慢-快视频编码策略,该策略根据帧间相似性动态分配计算资源,以更高分辨率处理视觉变化显著的关键帧(慢路径),同时以较低分辨率处理相对静态的帧,增加时间覆盖范围(快路径)。其次,我们实施了一种渐进式的四阶段预训练方法,系统地将模型的上下文长度从8K扩展到128K个标记,使其能够处理更长的视频和更复杂的视觉内容。第三,我们开发了一个全面的后训练流程,专注于推理增强和人类偏好对齐,包括五步思维链数据构建过程、基于GSPO的迭代强化学习(针对困难案例的渐进提示)以及对齐训练。通过在公开基准上的广泛评估和严格的内部人类评估,Keye-VL-1.5在视频理解任务中表现出显著优于现有模型的性能,同时在通用多模态基准上保持竞争力。
大型语言模型通常需要昂贵的优化过程,如强化学习,才能掌握复杂的推理任务。本研究表明,一旦习得推理能力,便可将其提取并以紧凑的任务向量形式在模型间传递。我们选取了两个公开可用、初始化相同的Qwen2.5模型,一个通过监督微调(SFT)进行优化,另一个则在同一数据集上采用群体相对策略优化(GRPO)进行训练。从中,我们提取了一个推理向量:v_{reason} = theta_{GRPO} - theta_{SFT}。我们假设该向量捕捉了强化学习赋予的推理能力,同时剔除了SFT过程中共享的知识。当通过简单的算术运算将该向量添加到兼容的指令微调模型时,它持续提升了多种推理基准测试的表现:GSM8K(+4.9%)、HumanEval(+4.3%)、SciQ(+1.7%)以及BigBenchHard(对于1.5B模型,+12.3%)。即使在对抗性条件下,性能提升依然显著。相反,减去该向量会导致性能显著下降(GSM8K上-11.8%),证明了该向量对模型推理能力的重大贡献。本研究展示了如何从现有的开源模型中提取通常通过昂贵训练获得的推理能力,并通过简单的张量运算进行复用,为通过回收先前的计算投资来增强模型提供了一种实用方法。
大型语言模型(LMs)的后训练往往优先考虑准确性和实用性,而牺牲了多样性。这引发了一种矛盾:虽然后训练提升了回答质量,但也使得输出分布更加集中,减少了想法的范围,从而限制了LMs在创意和探索性任务(如头脑风暴、故事叙述或问题解决)中的实用性。我们通过多样性感知强化学习(DARLING)框架应对这一挑战,该框架同时优化回答质量和语义多样性。DARLING的核心在于引入了一种学习到的分区函数,用以衡量超越表层词汇变化的多样性。这一多样性信号随后与在线强化学习中的质量奖励相结合,激励模型生成既高质量又具独特性的输出。跨多个模型家族和规模的实验表明,DARLING适用于两种任务类型:不可验证任务(指令遵循和创意写作)和可验证任务(竞赛数学)。在第一种设置下的五个基准测试中,DARLING始终优于仅关注质量的强化学习基线,产出了同时具备更高质量和新颖性的输出。在第二种设置下,DARLING实现了更高的pass@1(解决方案质量)和pass@k(解决方案多样性)。最为显著的是,明确优化多样性在在线强化学习中催化了探索,表现为更高质量的响应。
近期,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)技术取得显著进展,使得大型语言模型(LLMs)能够应对数学与编程等复杂推理任务。RLVR通过利用可验证结果奖励来指导策略优化,使LLMs能够以扎实可靠的方式逐步提升输出质量。尽管前景广阔,RLVR范式仍面临重大挑战,现有方法常受限于稀疏的奖励信号及不稳定的策略梯度更新,尤其是在基于强化学习的方法中。为应对这些挑战,我们提出了PACS,一种新颖的RLVR框架,它通过监督学习框架实现了隐式演员-评论家耦合。通过将结果奖励视为可预测标签,我们将RLVR问题重新表述为针对由策略模型参数化的评分函数的监督学习任务,并采用交叉熵损失进行优化。详细的梯度分析表明,这一监督式表述不仅自然恢复了经典策略梯度更新,还隐式耦合了演员与评论家角色,从而实现了更稳定高效的训练。在具有挑战性的数学推理任务基准测试中,PACS超越了PPO和GRPO等强RLVR基线,展现出卓越的推理性能。例如,在AIME 2025的pass@256指标上,PACS达到了59.78%,较PPO和GRPO分别提升了13.32和14.36个百分点。这一简洁而强大的框架为LLMs在可验证奖励下的后续训练开辟了一条充满希望的道路。我们的代码与数据已开源,详见https://github.com/ritzz-ai/PACS。
本文对OpenVision的架构与损失函数设计进行了简化,以提升其训练效率。借鉴先前视觉-语言预训练工作CapPa与AIMv2,以及现代多模态设计如LLaVA,我们的改动直接明了:移除了文本编码器(连带对比损失),仅保留生成式训练信号——即字幕生成损失。我们将这一新版本命名为OpenVision 2。初步成果令人鼓舞:尽管简化了架构,OpenVision 2在广泛的多模态基准测试中与原模型性能相当,同时显著减少了训练时间与内存消耗。例如,采用ViT-L/14时,训练时间缩短约1.5倍(从83小时降至57小时),内存使用减少约1.8倍(从24.5GB降至13.8GB,相当于最大批量大小从2k增至8k)。这一卓越的训练效率使我们能够超越OpenVision中使用的最大视觉编码器规模,参数数量突破10亿大关。我们坚信,这种轻量级、纯生成式的范式对于未来多模态基础模型中的视觉编码器开发具有强大吸引力。
视频合成技术通过整合实拍镜头来创作视频作品,是视频制作与电影生产中的关键技术。传统流程需耗费大量人力,依赖专家协作,导致制作周期长、人力成本高。为解决这一问题,我们采用生成模型自动化这一过程,称之为生成式视频合成。这一新任务旨在以交互方式自适应地将前景视频的身份与运动信息注入目标视频,使用户能够自定义最终视频中动态元素的大小、运动轨迹等属性。具体而言,我们基于其内在特性设计了一种新颖的扩散变换器(DiT)流程。为保持编辑前后目标视频的一致性,我们改进了一个轻量级的基于DiT的背景保留分支,采用掩码标记注入技术。为继承其他来源的动态元素,提出了一个利用全自注意力机制的DiT融合模块,并辅以简单有效的前景增强训练方法。此外,为根据用户控制融合不同布局的背景与前景视频,我们开发了一种新型位置编码,称为扩展旋转位置编码(ERoPE)。最后,我们为这一新任务构建了一个包含61K组视频的数据集,命名为VideoComp,该数据集包含完整的动态元素及高质量的目标视频。实验表明,我们的方法有效实现了生成式视频合成,在保真度与一致性上均优于现有可能的解决方案。
近期大型语言模型(LLMs)的发展伴随着一系列新颖思想和方法的涌现,旨在更好地优化深度学习模型的损失。这些方法提出的主张多种多样:从加速收敛到减少对特定超参数的依赖。然而,用于验证这些主张的实验协议各不相同,使得方法间的直接比较颇具挑战。本研究对近期优化技术进行了全面评估,覆盖标准化的LLM预训练场景,系统性地改变模型规模、批量大小和训练时长。通过对每种方法的细致调优,我们为实践者提供了针对不同场景选择最佳优化器的指导。对于研究人员,我们的工作指明了未来优化研究的有前景方向。最后,通过公开代码并确保所有实验完全可复现,我们希望这些努力能助力未来方法的开发与严格基准测试。
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的一个有前景的框架。然而,现有方法如GRPO常面临梯度消失的问题。这一问题主要源于对词元级概率比率的固定裁剪界限以及对相同奖励的标准化处理,这可能导致梯度更新失效及生成响应的利用不足。本研究提出了动态裁剪策略优化(DCPO),它引入了一种动态裁剪策略,该策略根据词元特定的先验概率自适应调整裁剪界限,以增强词元级探索;同时采用平滑优势标准化技术,跨累积训练步骤标准化奖励,以提高响应级别上生成响应的有效利用率。DCPO在基于四种不同模型的四个基准测试中均取得了最先进的性能。特别是在AIME24基准测试中,DCPO在贪婪解码下实现了46.7的Avg@1,在32次采样下实现了38.8的Avg@32,在Qwen2.5-Math-7B模型上超越了DAPO(36.7/31.6)和GRPO(36.7/32.1)。在基于Qwen2.5-14B的AIME25基准测试中,DCPO表现达到(23.3/19.0),优于GRPO(13.3/10.5)和DAPO(20.0/15.3)。此外,DCPO在四个模型上相较于GRPO实现了非零优势平均28%的提升,训练效率较DAPO翻倍,且与GRPO和DAPO相比,显著降低了词元裁剪比率一个数量级,同时保持了卓越的性能。这些成果凸显了DCPO在更高效利用生成数据进行大语言模型强化学习方面的有效性。
基于大语言模型(LLM)的GUI代理在多样化的数字环境中展现出交互潜力。其中,视频游戏因其多样的界面成为宝贵的测试平台,而冒险游戏则通过复杂的叙事驱动交互带来了额外挑战。然而,现有的游戏基准测试缺乏多样性,且很少评估代理完成整个故事情节的能力。为此,我们推出了FlashAdventure,一个包含34款基于Flash的冒险游戏的基准测试,旨在检验完整故事线的完成度,并应对观察与行为之间的差距——即记忆并基于早期游戏信息采取行动的挑战。我们还提出了CUA-as-a-Judge,一个自动化的游戏评估器,以及COAST,一个利用长期线索记忆来更好地规划和解决序列任务的代理框架。实验表明,当前的GUI代理在完成完整故事线方面存在困难,而COAST通过弥合观察与行为之间的差距,显著提高了里程碑任务的完成率。尽管如此,人类与表现最佳代理之间仍存在显著差距,这提示我们需要持续的研究努力来缩小这一鸿沟。
守护模型用于监督和调节面向用户的聊天机器人输出,执行防护措施并检测不良行为。标准的守护模型如LlamaGuard能够检测预定义的静态危害类别。我们提出动态守护模型,其基于用户自定义策略评估文本,使之适用于标准守护模型未涵盖的不同应用领域。我们的动态守护模型可用于快速检测策略违规,或结合链式思维推理,清晰阐述并论证模型输出。在静态危害类别的检测准确率上,动态守护模型与静态模型相当,同时能以远少于前沿推理模型的时间,准确识别自由形式策略的违规情况。
多年来,向量嵌入技术被赋予了越来越多的检索任务,并逐渐应用于推理、指令遵循、编码等领域。这些新的基准测试要求嵌入模型能够处理任何查询及任何可能的相关性概念。尽管先前的研究指出了向量嵌入在理论上的局限性,但普遍认为这些困难仅源于不切实际的查询,而通过更好的训练数据和更大的模型可以克服那些非不切实际的查询带来的挑战。在本研究中,我们证明,在现实场景中,即便是极其简单的查询,也可能触及这些理论限制。我们结合学习理论中的已知结果,揭示了能够作为某些查询结果返回的文档前k个子集的数量受限于嵌入的维度。我们通过实验证实,即使将k限制为2,并在测试集上自由参数化嵌入进行直接优化,这一结论依然成立。随后,我们基于这些理论成果创建了一个名为LIMIT的现实数据集,用于对模型进行压力测试,并观察到即使是最先进的模型,在面对这一简单任务时也表现不佳。我们的研究揭示了现有单一向量范式下嵌入模型的局限,呼吁未来研究开发能够解决这一根本限制的方法。
大型语言模型(LLMs)在生成合成数据方面表现出色,但确保其质量和多样性仍具挑战性。我们提出了一种名为“遗传提示”的创新框架,该框架将遗传算法与LLMs相结合,以增强合成数据的生成。我们的方法将语义文本属性视为基因序列,并利用LLM模拟交叉和变异操作。这一遗传过程通过创造新颖的属性组合,提升了数据质量和多样性,使合成数据分布更接近真实世界数据。为了优化亲本选择,我们还整合了一种主动学习方案,以扩展后代搜索空间。我们在多个自然语言处理任务上的实验揭示了几个关键发现:“遗传提示”不仅显著超越了现有最先进的基线方法,还在不同生成模型规模和尺度上展现出稳健性能。此外,我们证明了将我们的合成数据与原始训练集融合,能显著提升下游模型性能,特别是在类别不平衡的场景中。我们的研究结果验证了“遗传提示”是一种为广泛自然语言处理应用生成高质量合成数据的有效方法。
医学图像检索对于临床决策和转化研究至关重要,其依赖于具有区分性的视觉表征。然而,当前方法仍显零散,针对2D、3D及视频类医学数据分别采用不同的架构与训练策略。这种针对特定模态的设计阻碍了可扩展性,并抑制了统一表征的发展。为实现统一学习,我们构建了一个大规模混合模态数据集,包含867,653个医学影像样本,涵盖2D X光片与超声图像、RGB内窥镜视频以及3D CT扫描。利用此数据集,我们训练了M3Ret,一个无需任何模态特定定制的统一视觉编码器。它成功利用生成式(MAE)与对比式(SimDINO)自监督学习(SSL)范式,习得了可迁移的表征。我们的方法在所有单一模态的零样本图像到图像检索任务中均创下了新的最先进水平,超越了如DINOv3和文本监督的BMC-CLIP等强劲基线。更为显著的是,即便没有配对数据,模型也展现出强大的跨模态对齐能力,并且能够泛化至未见过的MRI任务,尽管在预训练期间从未接触过MRI数据,这证明了纯视觉自监督学习对未见模态的泛化能力。全面的分析进一步验证了我们的框架在模型与数据规模上的可扩展性。这些发现为医学影像领域传递了积极信号,将M3Ret定位为迈向多模态医学图像理解中视觉自监督学习基础模型的重要一步。
AdamW长期以来一直是语言模型预训练中的主导优化器,尽管有众多声称替代优化器能带来1.4至2倍加速的说法。我们认为,两个方法论上的缺陷掩盖了公平比较,阻碍了实际应用:(i) 不均衡的超参数调优和(ii) 有限或误导性的评估设置。为解决这两个问题,我们对十种深度学习优化器进行了系统研究,覆盖了四种模型规模(0.1B至1.2B参数)和数据与模型比例(1至8倍Chinchilla最优值)。我们发现,公平且信息丰富的比较需要在训练结束时,跨模型规模和数据与模型比例进行严格的超参数调优和评估。首先,一个优化器的最优超参数对另一个可能并不适用,盲目转移超参数有失公允。其次,许多提出的优化器相对于良好调优基线的实际加速比宣称的要低,并随模型规模增大而减小,对于1.2B参数模型仅剩1.1倍。第三,在达到目标训练预算前比较中间检查点可能产生误导,因为学习率衰减会导致两个优化器之间的排名在训练过程中反转。通过深入调查,我们发现所有最快的优化器,如Muon和Soap,均采用矩阵作为预条件子——即用矩阵而非逐元素标量乘以梯度。然而,基于矩阵的优化器的加速比与模型规模成反比,从0.1B参数模型相对于AdamW的1.4倍降至1.2B参数模型的仅1.1倍。
大型语言模型(LLMs)在众多基准测试中展现出金牌级别的表现,然而这种成功是否真正反映了推理能力还是仅仅基于模式匹配,仍不明确。从认知科学的角度来看,一个具有启发性的测试是模型能否通过显式的元语言演绎学习掌握一门陌生语言,这是一种人类学习者能够可靠地通过元语言推理内化语法体系的学习范式。我们通过Camlang这一新颖的构造语言来探讨这一问题,该语言展示了自然语言中未曾出现过的特征组合。Camlang包含两套显式资源:一本语法书和一本双语词典,它们模拟了成人通过显式语法规则和词汇查找进行第二语言学习的过程,使我们能够区分形态句法、词汇语义及句子层面推理中的错误。人类实验表明,这些资源足以让参与者掌握Camlang并成功解决Camlang任务。为了具体化评估,我们将CommonsenseQA改编为Camlang版本,创建了Camlang-CSQA-v0,这是更广泛任务套件中的首个任务,解决这些问题需要应用语法规则和词汇映射。实验结果显示,GPT-5在英语中达到了98%的精确匹配(EM)准确率,但在Camlang中仅为47%,远低于人类87%的表现,而其他顶尖推理LLMs的表现更差。人类验证进一步揭示,模型的大部分成功源于浅层的词汇对齐,而GPT-5在有限程度上展现出初现的元语言意识,但并未像人类那样系统性地掌握语法。Camlang建立了一个基于认知的评估范式,揭示了当前模型与人类元语言能力之间的根本差距。
深度研究工具是当今最具影响力且最为常见的智能代理系统之一。然而,我们观察到,迄今为止引入的每一个深度研究代理都是通过硬编码来执行特定的研究策略,且工具选择固定不变。我们在此提出通用深度研究(UDR),这是一种通用型智能代理系统,它能够封装任何语言模型,使用户无需额外训练或微调即可创建、编辑和优化完全自定义的深度研究策略。为了展示我们系统的通用性,我们为UDR配备了最小化、扩展化和深入化三种示例研究策略,并提供了一个用户界面,以促进对该系统的实验探索。
我们推出ViSTA-SLAM,这是一款无需相机内参即可运行的实时单目视觉SLAM系统,使其能够广泛应用于多种相机配置中。该系统的核心在于采用了一种轻量级的对称双视图关联(STA)模型作为前端,该模型仅需两幅RGB图像即可同时估计相对相机姿态并回归局部点云图。这一设计显著降低了模型复杂度,我们的前端大小仅为同类最先进方法的35%,同时提升了流程中所用双视图约束的质量。在后端,我们构建了一个特别设计的Sim(3)位姿图,融入了回环检测以应对累积漂移问题。大量实验表明,与现有方法相比,我们的方法在相机追踪和密集三维重建质量上均展现出卓越性能。GitHub仓库地址:https://github.com/zhangganlin/vista-slam。
随着视觉-语言模型(VLMs)的迅猛发展,基于图形用户界面(GUI)的移动智能体已成为智能移动系统发展的关键方向。然而,现有智能体模型在执行现实任务时仍面临显著挑战,尤其是在准确性和效率方面。为应对这些局限,我们提出了MobiAgent,一个全面的移动智能体系统,包含三大核心组件:MobiMind系列智能体模型、AgentRR加速框架以及MobiFlow基准测试套件。此外,鉴于当前移动智能体的能力仍受限于高质量数据的可获得性,我们开发了一套AI辅助的敏捷数据收集流程,大幅降低了人工标注的成本。与通用大语言模型(LLMs)及专用GUI智能体模型相比,MobiAgent在真实移动场景中实现了业界领先的性能表现。
视觉自回归模型(VAR)作为一类新兴的生成模型,在文本到图像生成任务中表现出了与扩散模型相媲美的性能。尽管条件生成已被广泛研究,但无需额外训练即可实现基于提示的图像编辑能力同样至关重要,因为它支撑着众多实际应用场景。本文通过引入视觉自回归逆噪声(VARIN),首次针对VAR模型设计了基于噪声反转的编辑技术,深入探讨了VAR在文本到图像编辑方面的潜力。VARIN利用一种新颖的伪逆函数——位置感知Argmax反演(LAI)进行argmax采样,以生成逆Gumbel噪声。这些逆噪声不仅能够精确重建源图像,还能实现与文本提示对齐的定向、可控编辑。大量实验表明,VARIN能够根据指定提示有效修改源图像,同时显著保留原始背景和结构细节,从而验证了其作为一种实用编辑方法的有效性。
将自然语言查询转换为SQL查询是工业界和学术界共同面临的关键挑战,旨在提升对数据库及大规模应用的可访问性。本研究探讨了如何利用上下文学习与思维链技术,为文本到SQL系统开发出稳健的解决方案。我们提出了“SQL思维链”:一个多智能体框架,该框架将Text2SQL任务分解为模式链接、子问题识别、查询计划生成、SQL生成以及一个引导式修正循环。与以往仅依赖基于执行的静态修正系统不同,我们引入了基于上下文学习的分类指导下的动态错误修正机制。SQL思维链在Spider数据集及其变体上取得了最先进的成果,通过结合引导式错误分类与基于推理的查询规划,展现了卓越的性能。
本研究揭示了各向异性参数分布是低比特量化训练大规模语言模型(LLMs)的根本障碍:少数主导奇异值产生的宽数值范围与块级量化的固有偏差相冲突。这种偏差过度保留高幅值而舍弃较小值,导致训练不稳定及模型性能低下。为此,我们提出了Metis训练框架,它整合了以下三项创新:(i) 结合谱分解与随机嵌入,高效分离主导成分与长尾成分,将宽分布压缩至适合量化的窄范围内;(ii) 在谱域采用自适应学习率,增强被忽视方向的学习,更好地捕捉对性能至关重要的多样化特征;(iii) 双范围正则化器,同时约束数值精度与参数范围分布,确保低比特训练的稳定性和无偏性。借助Metis,FP8训练超越了FP32基准,FP4训练也达到了与FP32相当的精度,为在先进低比特量化下实现稳健且可扩展的LLM训练铺平了道路。Metis的代码实现已发布于:https://github.com/typename-yyf/Metis-quantization。
我们推出“月光系列”,这是一套专为多种代表性不足语言设计的微型自动语音识别(ASR)模型。传统观点认为,多语言ASR模型通过利用跨语言的语音相似性,性能优于单语言模型。我们对此假设提出挑战,证明对于足够小的模型(2700万参数),在精心平衡的高质量人工标注、伪标注及合成数据上训练单语言系统,能显著提升性能。平均而言,我们的模型错误率比同等规模的Whisper Tiny模型低48%,超越规模大9倍的Whisper Small模型,并在多数情况下与规模大28倍的Whisper Medium模型持平或更优。这些成果推动了该尺寸模型的技术前沿,为之前支持有限的语言实现了精确的端侧ASR。我们以宽松的开源许可证发布了阿拉伯语、中文、日语、韩语、乌克兰语和越南语的“月光”模型。
在CT和MRI扫描中精确分割器官与肿瘤对于诊断、治疗规划及疾病监测至关重要。尽管深度学习已推动了自动化分割技术的进步,但多数模型仍局限于特定任务,缺乏跨模态与跨机构的泛化能力。基于数十亿规模自然图像预训练的视觉基础模型(FMs)提供了强大且可迁移的表征能力。然而,将其应用于医学影像面临两大挑战:(1)多数基础模型采用的ViT骨干网络在医学图像分割上仍逊色于专用CNN;(2)自然图像与医学图像间巨大的领域差异限制了迁移效果。我们提出了MedDINOv3,一个简单而有效的框架,用于将DINOv3适配至医学分割任务。首先,我们重新审视了普通ViT,并设计了一个包含多尺度令牌聚合的简洁高效架构。随后,我们在CT-3M——一个精心挑选的包含387万张轴向CT切片的集合上,采用多阶段DINOv3配方进行领域自适应预训练,以学习鲁棒的密集特征。MedDINOv3在四个分割基准测试中达到或超越了当前最优性能,展示了视觉基础模型作为医学图像分割统一骨干的潜力。代码已发布于https://github.com/ricklisz/MedDINOv3。
大型语言模型(LLMs)在无意中可能反映出其训练数据中蕴含的社会偏见,导致产生有害或带有偏见的输出。在印度背景下,我们通过一系列模型的实证评估发现,围绕种姓和宗教的偏见尤为突出。然而,现有的大多数缓解策略以西方为中心,未能触及这些本土细微差别。我们提出了“AMBEDKAR”框架,该框架受印度宪法设计师B.R.安贝德卡博士平等愿景的启发,旨在引导LLM输出符合印度宪法第14至17条所倡导的公平、中立与包容性。我们的方法引入了一个“宪法感知解码层”,该层由印度AI宪法指导,仅在推理时应用,无需对基础模型进行参数更新。我们整合了一种推测性解码算法,在生成过程中主动减少种姓主义和社群偏见。这一缓解层直接作用于解码过程,避免了修改模型内部结构,并降低了重新训练带来的计算和基础设施成本。我们将推测性解码重新诠释为一种公平性机制,而不仅仅是效率工具。在此框架下,小型语言模型(SLM)扮演潜在偏见生成者的角色,而受宪法指导的大型语言模型(LLM)则作为验证者。LLM不再加速生成,而是确保SLM输出遵循抗偏见的轨迹。这种角色反转催生了一种“通过推测实现公平”的范式。与基线相比,我们的方法实现了高达26.41%的偏见绝对减少。我们的源代码、数据集及结果可在https://anonymous.4open.science/r/AMBEDKAR-983B/获取。
提示敏感性,即通过改写(即使用不同词语重复表达相同内容)导致大型语言模型(LLM)性能显著变化的现象,已被广泛认为是LLM的核心局限之一。在本研究中,我们重新审视这一问题并提出疑问:广为报道的高提示敏感性是否真的是LLM固有的弱点,还是很大程度上源于评估过程的假象?为解答此问题,我们系统性地评估了7个LLM(如GPT和Gemini系列)在6个基准测试上的表现,涵盖12种多样化的提示模板,包括多项选择和开放式任务。我们发现,大部分提示敏感性源于启发式评估方法,如对数似然评分和严格的答案匹配,这些方法常常忽视了通过同义词或改写等不同表达方式传达的正确语义。当我们采用LLM作为评判者的评估方式时,观察到性能方差显著降低,且模型排名在不同提示间的一致性相关性更高。我们的研究结果表明,现代LLM对提示模板的鲁棒性远超以往认知,提示敏感性可能更多是评估过程中的假象,而非模型本身的缺陷。
传统的大型视觉与语言模型(LVLMs)对齐方法主要依赖于人工筛选的偏好数据。然而,人工生成的偏好数据成本高昂;机器生成的偏好数据质量有限;而自监督的偏好数据又常常引入幻觉问题。为克服这些局限,我们提出了一种受人类协作学习启发的新型“同行评审团”学习框架。该方法利用一组LVLMs,通过迭代自我改进过程,相互评估并学习彼此的集体输出。通过模拟同行评审系统,我们的模型针对一系列精心设计的提示生成、评估并优化输出,仿效课堂学习环境。我们证明,这一方法无需大量人工标注数据集即可提升模型性能。实验结果显示,在多个基准测试中均取得显著进步,展现了同行评估作为自监督对齐可扩展替代方案的潜力。尤为突出的是,我们展示“同行评审团”方法将十五个基准测试的平均得分从48%提升至57%。
推荐系统中的公平性通常被划分为群体公平性和个体公平性。然而,目前尚未建立对这两种公平性之间关系的科学理解,因为先前关于这两种公平性的研究采用了不同的评估指标或评估目标,从而无法对两者进行恰当的比较。因此,目前尚不清楚提升一种公平性可能会如何影响另一种公平性。为填补这一空白,我们通过全面比较适用于两种公平性的评估指标,研究了群体公平性与个体公平性之间的关系。我们在三个数据集上进行的八次实验表明,对群体高度公平的推荐可能对个体极为不公平。这一发现新颖且实用,对于旨在提升其系统公平性的推荐系统实践者具有重要意义。我们的代码可在以下网址获取:https://github.com/theresiavr/stairway-to-fairness。
尽管虚拟试衣技术潜力巨大,但其实际应用仍面临两大挑战:现有方法无法支持多参考服饰组合(包括服装和配饰),以及由于在每次去噪步骤中重复计算参考特征导致的显著低效。为解决这些问题,我们提出了FastFit,一个基于新型可缓存扩散架构的高速多参考虚拟试衣框架。通过采用半注意力机制,并用类别嵌入替换传统的时序嵌入来表征参考物品,我们的模型以可忽略的参数开销,完全将参考特征编码与去噪过程解耦。这使得参考特征只需计算一次,即可在所有步骤中无损复用,从根本上突破了效率瓶颈,相比同类方法平均提速3.5倍。此外,为促进复杂多参考虚拟试衣的研究,我们引入了DressCode-MR,一个全新的大规模数据集。该数据集包含28,179组高质量配对图像,涵盖五大关键类别(上衣、下装、连衣裙、鞋子和包包),通过专家模型与人工反馈优化的流程构建。在VITON-HD、DressCode及我们提出的DressCode-MR数据集上的大量实验表明,FastFit在关键保真度指标上超越了现有最先进方法,同时显著提升了推理效率。
点云学习,尤其是在无需人工标签的自监督方式下,因其在广泛应用中的潜在价值,已在视觉与学习领域引起了越来越多的关注。现有的大多数点云自监督学习生成方法主要集中于从单一视角下的可见点恢复被遮挡的点。认识到双视角预训练范式本质上引入了更大的多样性和变化性,因此可能实现更具挑战性和信息量的预训练。受此启发,我们探索了双视角学习在这一领域的潜力。本文中,我们提出了Point-PQAE,一种交叉重建生成范式,首先生成两个解耦的点云/视图,然后从一个视图重建另一个。为实现这一目标,我们首次开发了一种用于点云视图生成的裁剪机制,并进一步提出了一种新颖的位置编码来表示两个解耦视图之间的三维相对位置。与自重建相比,交叉重建显著增加了预训练的难度,使我们的方法在三维自监督学习中超越了以往的单模态自重建方法。具体而言,在ScanObjectNN的三个变体上,采用Mlp-Linear评估协议,我们的方法分别比自重建基线(Point-MAE)高出6.5%、7.0%和6.7%。代码可在https://github.com/aHapBean/Point-PQAE获取。
在诸如车辆损伤评估等具有挑战性的视觉领域中,细粒度目标检测即使对于人类专家而言,也是一项难以可靠解决的艰巨任务。尽管DiffusionDet通过条件去噪扩散技术推动了该领域的前沿发展,但其在依赖上下文情境下的表现仍受限于局部特征条件。针对这一根本性局限,我们引入了上下文感知融合(Context-Aware Fusion, CAF)机制,该机制利用交叉注意力机制,将全局场景上下文与局部候选特征直接整合。全局上下文由一个独立的专用编码器生成,该编码器捕获全面的环境信息,使得每个目标候选能够关注场景层面的理解。我们的框架通过使每个目标候选能够关注到全面的环境信息,显著增强了生成式检测范式的性能。实验结果表明,在CarDD基准测试上,我们的方法超越了现有最先进模型,为细粒度领域中的上下文感知目标检测设立了新的性能标杆。