每日精选AI研究论文及翻译
基于大语言模型的自主科学发现智能体近期取得显著进展,已能实现端到端科研流程的自动化。然而,现有系统主要依赖以运行时为中心的执行范式,需要反复在线阅读、总结和推理海量科学文献。这种即时计算策略不仅计算成本高昂,受限于上下文窗口长度,还容易导致推理脆弱和事实幻觉。我们提出Idea2Story——一种基于预计算驱动的自主科学发现框架,将文献理解从在线推理转变为离线知识构建。该框架持续收集同行评议论文及其审稿反馈,提取核心方法单元,组合可复用的研究模式,并将其组织为结构化方法知识图谱。在运行时,未充分明确的用户研究意图可与既定研究范式对齐,实现高质量研究模式的高效检索与复用,而非开放式生成和试错。通过将研究规划与执行建立在预构建知识图谱之上,Idea2Story有效缓解了大语言模型的上下文窗口瓶颈,大幅减少了对文献的重复运行时推理。定性分析与初步实验表明,Idea2Story能生成连贯、方法可靠且新颖的研究模式,并在端到端场景下产出多个高质量研究范例。这些结果证明,离线知识构建为可靠的自主科学发现提供了实用且可扩展的基础。
文本到图像生成模型在生成高保真度图像方面取得了显著成功,但在处理复杂空间关系(如空间感知、推理或交互)时往往表现不佳。由于现有基准测试的提示文本普遍存在内容简短或信息稀疏的问题,这些关键维度长期被忽视。本文提出SpatialGenEval——一个系统评估T2I模型空间智能的新基准,涵盖两大核心维度:(1)该基准包含25个真实场景下的1,230条长文本密集提示,每条提示整合10个空间子领域及对应的10组多选题对,内容涵盖物体位置、布局到遮挡关系与因果推理等多个层面。通过对21个前沿模型的广泛评测,我们发现高阶空间推理仍是当前模型的主要瓶颈。(2)为证明信息密集型设计超越简单评估的实用价值,我们同步构建了SpatialT2I数据集。该数据集包含15,400个经重写的文本-图像对,在保持信息密度的同时确保图像一致性。基于主流基础模型(Stable Diffusion-XL、Uniworld-V1、OmniGen2)的微调实验表明,该方法能带来稳定的性能提升(+4.2%、+5.7%、+4.4%)并生成更具真实感的空间关系效果,为通过数据中心化路径实现T2I模型的空间智能提供了新范式。
尽管混合专家(MoE)架构已成为大语言模型稀疏性扩展的标准方案,但其正面临收益递减和系统级瓶颈的挑战。本研究探索了嵌入缩放作为稀疏性扩展中一个强效且正交的维度。通过全面分析与实验,我们识别出嵌入缩放在特定场景下能比专家缩放获得更优的帕累托前沿。我们系统性地揭示了影响该方案效能的关键架构因素——从参数预算分配到与模型宽度、深度的相互作用。此外,通过整合定制化系统优化与推测解码技术,我们成功将这种稀疏性转化为实际的推理加速。基于这些发现,我们提出了LongCat-Flash-Lite模型:一个具有约30亿激活参数、总参数量达685亿的全新训练模型。尽管该模型为嵌入层分配了超过300亿参数,LongCat-Flash-Lite不仅超越了参数规模相当的MoE基线模型,更在智能体与代码生成领域展现出与同规模现有模型相比的卓越竞争力。
操纵动态物体对视觉-语言-动作模型而言仍是开放挑战。尽管这类模型在静态操作中展现出强大泛化能力,但在需要快速感知、时序预测和持续控制的动态场景中仍存在困难。我们提出DynamicVLA——一种动态物体操作框架,通过三项核心设计整合时序推理与闭环自适应:1)采用卷积视觉编码器的紧凑型0.4B参数量VLA模型,实现空间效率高、结构保真的编码,支撑快速多模态推理;2)连续推理机制,通过重叠式推理与执行降低延迟,实时适应物体运动;3)潜在感知动作流传输,通过强制时序对齐的动作执行弥合感知与执行的间隙。为填补动态操作数据空白,我们构建了动态物体操作基准DOM,通过自动数据采集流程从零创建了涵盖2.8K个场景、206个物体的20万条合成交互轨迹,并无需遥操作即可快速采集2000条真实世界轨迹。大量实验表明,该方法在响应速度、感知能力和泛化性能上取得显著提升,使DynamicVLA成为跨具身系统的通用动态物体操作统一框架。
大型视觉语言模型的发展推动了对海量多模态数据管理及应用的需求,使得从视觉图像中提取信息的OCR技术日益受到关注。然而现有OCR方法主要聚焦于从图像或扫描文档中识别文本元素(以文本为中心的OCR),却忽视了从视觉信息密集的图像源(以视觉为中心的OCR)中识别视觉元素,例如图表、网页和科学图谱。现实中这类视觉信息密集的图像在互联网中广泛存在,具有重要的实际应用价值,如数据可视化和网页分析。本技术报告提出OCRVerse——首个端到端的整体OCR方法,可实现以文本为中心的OCR与以视觉为中心的OCR的统一处理。为此,我们构建了涵盖报纸、杂志、书籍等广泛文本中心文档,以及图表、网页、科学图谱等视觉中心渲染复合物的综合性数据工程。此外,我们提出两阶段SFT-RL多领域训练方法:SFT通过直接混合跨领域数据训练建立初始领域知识,而RL则针对各领域特性设计个性化奖励策略。具体而言,由于不同领域需要多样化的输出格式和预期结果,我们在RL阶段提供足够的灵活性,为每个领域定制灵活的奖励信号,从而提升跨领域融合能力并避免数据冲突。实验结果表明,OCRVerse在文本中心与视觉中心数据类型上均取得具有竞争力的结果,甚至可与大规模开源及闭源模型相媲美。
视觉语言模型(VLMs)的最新进展显著推动了视觉推理领域的发展。然而,开源VLMs仍落后于专有系统,这主要源于高质量推理数据的匮乏。现有数据集对STEM图表、视觉谜题等挑战性领域覆盖有限,且缺乏能够激发强推理能力所必需的一致、长链思维(CoT)标注。为弥补这一空白,我们推出了MMFineReason——一个包含180万样本、51亿解答令牌的大规模多模态推理数据集,其高质量推理标注源自Qwen3-VL-235B-A22B-Thinking的知识蒸馏。该数据集通过系统化的三阶段流程构建:(1)大规模数据收集与标准化;(2)CoT原理生成;(3)基于推理质量与难度感知的综合筛选。最终数据集涵盖STEM问题、视觉谜题、游戏及复杂图表,每个样本均配有视觉化推理轨迹标注。我们在MMFineReason上对Qwen3-VL-Instruct进行微调,开发出MMFineReason-2B/4B/8B版本。这些模型在其规模级别中创造了新的性能纪录:MMFineReason-4B成功超越Qwen3-VL-8B-Thinking,而MMFineReason-8B甚至优于Qwen3-VL-30B-A3B-Thinking,并逼近Qwen3-VL-32B-Thinking,展现出卓越的参数效率。关键发现是,通过难度感知过滤策略揭示了“少即是多”现象:仅7%(12.3万样本)的子集即可达到与完整数据集相当的性能。值得注意的是,我们还发现以推理为导向的数据组合能同步提升模型通用能力,产生协同效应。
大型语言模型对所有令牌进行均匀计算分配,未能考虑某些序列可轻松预测而另一些需要深度推理的特性。我们提出ConceptMoE模型,通过动态合并语义相似的令牌形成概念表征,实现隐式的令牌级计算分配。可学习的分块模块通过测量令牌间相似度确定最优边界,在序列进入计算密集型概念模型前按目标压缩比R进行压缩。关键创新在于MoE架构支持受控评估:我们重新分配节省的计算量,使其与基线激活FLOPs(不含注意力图计算)和总参数量相匹配,从而分离出真正的架构优势。在此条件下,ConceptMoE在语言和视觉语言任务中持续超越标准MoE模型,语言预训练提升0.9个点,长上下文理解提升2.3个点,多模态基准提升0.6个点。通过层循环技术在持续训练中转换预训练MoE时,增益可达5.5个点,展现了实际应用价值。除性能提升外,ConceptMoE将注意力计算最高减少R^2倍,KV缓存减少R倍。当R=2时,实测显示长序列预填充加速达175%,解码加速达117%。极简的架构修改使其能直接集成到现有MoE中,证明自适应概念级处理从本质上提升了大语言模型的效能与效率。
基于单目图像序列的在线三维重建仍面临挑战,现有方法通常难以兼顾高质量渲染与精确几何重建。我们提出PLANING框架,该高效在线重建系统基于显式几何基元与神经高斯分布的松散耦合混合表征,实现了几何与外观的解耦建模。这种解耦机制支持分离几何与外观更新的在线初始化及优化策略,在显著降低结构冗余的同时实现稳定的流式重建。PLANING在稠密网格Chamfer-L2指标上较PGSR提升18.52%,PSNR指标超越ARTDECO达1.31 dB,重建ScanNetV2场景仅需不到100秒,比二维高斯泼溅提速5倍以上,且质量媲美离线逐场景优化。除重建质量外,该框架的结构清晰度与计算效率使其特别适用于大规模场景建模、具身AI模拟环境等下游任务。项目页面:https://city-super.github.io/PLANING/。
本报告推出Qwen3-ASR系列模型,包含两款全能语音识别模型与创新的非自回归语音强制对齐模型。Qwen3-ASR-1.7B和Qwen3-ASR-0.6B作为支持52种语言/方言识别的语音识别模型,依托大规模语音训练数据与基础模型Qwen3-Omni强大的音频理解能力。除开源基准测试外,我们还进行了全面的内部评估——因为语音识别模型在开源基准上的分数差异可能微小,但在实际场景中却存在显著质量差异。实验表明:1.7B版本在开源ASR模型中达到SOTA性能,与最强商用API竞争力相当;0.6B版本则实现了最佳的精度-效率平衡,其平均首字延迟可低至92毫秒,在128并发下仅需1秒即可完成2000秒语音转写。Qwen3-ForcedAligner-0.6B是基于大语言模型的非自回归时间戳预测器,可支持11种语言的文本-语音对齐。时间戳精度实验证明,该模型在三大主流强制对齐工具中表现最优,并在效率与多语言适应性方面更具优势。为加速语音识别与音频理解领域的社区研究,我们已将全系列模型基于Apache 2.0协议开源。
大型语言模型(LLMs)向自主智能体的演进需要管理海量动态上下文。然而现有基准测试大多保持静态,依赖被动检索任务,无法模拟智能体与环境交互的复杂性(如非线性推理与迭代反馈)。为此,我们提出AgentLongBench评估框架,通过基于横向思维谜题的模拟环境推演来评估智能体性能。该框架在知识密集型与知识无关场景中生成严密的交互轨迹。针对先进模型与记忆系统(32K至400万词元)的实验揭示关键缺陷:尽管智能体擅长静态检索,却在动态信息整合方面表现不佳——而这正是工作流的核心需求。分析表明,性能退化源于解决查询所需的最小词元量。这一因素解释了为何海量工具响应中固有的高信息密度,比长轮对话中常见的内存碎片化现象构成更严峻的挑战。
代理强化学习(Agentic RL)在实现智能体进行复杂推理与工具使用方面已取得显著成功。然而,现有方法大多仍依赖稀疏的结果型奖励进行训练。此类反馈无法区分中间推理质量,导致训练效果欠佳。本文提出代理推理奖励模型(Agent-RRM),该多维度奖励模型可为代理轨迹生成结构化反馈,包括:(1)显式推理轨迹;(2)通过突出推理缺陷提供细化指导的聚焦式批判;(3)评估过程性能的综合评分。基于这些信号,我们系统研究三种集成策略:Reagent-C(文本增强优化)、Reagent-R(奖励增强指导)和Reagent-U(统一反馈集成)。在12个多样化基准测试上的广泛评估表明,Reagent-U实现性能大幅跃升,在GAIA和WebWalkerQA上分别达到43.7%和46.2%的得分,验证了推理奖励模型与训练方案的有效性。我们已全面公开代码、模型及数据集以促进后续研究。
近期长视频生成研究已从双向模型转向自回归模型,但这些方法普遍存在误差累积和长期连贯性缺失的问题。虽然注意力锚定帧的引入缓解了性能衰减,但其常引发一种关键故障模式——锚定坍缩:生成内容反复回归至锚定帧,导致场景突兀重置和循环运动模式。我们通过分析发现,锚定坍缩源于旋转位置编码(RoPE)的周期结构与当前生成模型中普遍采用的多头注意力机制之间的固有冲突。为此,我们提出一种轻量级、免训练的解决方案,通过引入多头RoPE扰动来打破头间注意力同质化,从而有效抑制长序列坍缩现象。大量实验表明,我们的方法在保持生成质量的同时成功缓解了锚定坍缩。据我们所知,这项研究首次实现了质量几乎无衰减的实时、流式、无限长度视频生成。为验证其鲁棒性,我们生成了长达12小时的连续视频,这应是目前公开演示中最长的流式视频生成结果。
脑电图(EEG)基础模型近期作为脑机接口(BCI)领域的重要范式崭露头角,其目标是从大规模异构记录中学习可迁移的神经表征。尽管发展迅速,但由于预训练目标、预处理方法及下游评估协议的不一致,现有EEG基础模型尚缺乏公平全面的比较。本文旨在填补这一空白。我们首先回顾了50个代表性模型,将其设计选择归纳为统一分类框架,涵盖数据标准化、模型架构和自监督预训练策略。随后在涵盖九类BCI范式的13个EEG数据集上,对12个开源基础模型及具有竞争力的专业基线模型进行了系统评估。着眼于实际部署需求,我们同时考察了留一被试协议下的跨被试泛化能力,以及被试内少样本场景下的快速校准性能。通过对比全参数微调与线性探测,我们评估了预训练表征的可迁移性,并探究了模型规模与下游性能的关系。研究结果表明:1)线性探测往往效果有限;2)从头训练的专业模型在多类任务中仍具竞争力;3)在当前数据规模与训练范式下,扩大基础模型规模未必能提升泛化性能。
尽管大语言模型在基于语言的代理任务中表现出色,但其在未见过的非语言环境(如符号或空间任务)中的适用性仍然有限。先前研究将这种性能差距归因于预训练分布与测试分布之间的不匹配。本研究表明,主要瓶颈在于探索成本过高:掌握这些任务需要大量试错,这对于在高维语义空间中运行的重参数大语言模型而言,在计算上是不可持续的。为此,我们提出SCOUT(未见任务的子规模协作框架),该创新框架将探索与利用解耦。我们采用轻量级“侦察器”(如小型多层感知机)以远超大语言模型的速度和规模探测环境动态,所收集的轨迹通过监督微调引导大语言模型初始化,再经过多轮强化学习激活其潜在世界知识。实验表明,SCOUT使Qwen2.5-3B-Instruct模型平均得分达到0.86,显著优于Gemini-2.5-Pro(0.60)等专有模型,同时节省约60%的GPU时耗。
公共代码库托管着数百万微调模型,但社区使用量仍不成比例地集中在少数基础模型上。本研究探讨这种集中现象究竟反映了有效的市场选择,还是存在系统性忽略优质模型的情况。通过对2000多个模型的大规模评估,我们发现了"隐藏瑰宝"现象——部分冷门微调模型的表现显著优于热门模型。以Llama-3.1-8B系列为例,某些罕见下载的检查点在不增加推理成本的情况下,将数学推理能力从83.2%提升至96.0%。然而通过穷举评估每个上传模型来发现优质模型在计算上是不可行的。为此,我们将模型发现问题建模为多臂老虎机问题,通过共享查询集和激进淘汰机制加速序列二分搜索算法。我们的方法仅需对每个候选模型进行50次查询即可定位最优模型,实现超过50倍的发现效率提升。
当前减少语言模型中不良能力的方法多为事后干预,易被攻击者规避。一种自然的替代方案是在预训练阶段直接塑造模型能力。以消除医疗能力为代理任务,我们发现简单的预训练数据过滤干预措施在大规模应用中具有高效性、鲁棒性和低成本优势。受数据归因研究启发,我们证明基于词元的过滤比文档过滤更有效,能在降低对良性能力影响的同时实现同等程度的不良能力抑制。通过训练跨越两个数量级的模型,我们进一步发现过滤效果随规模扩大而增强:对于最大模型,词元过滤可使目标遗忘领域的计算速度降低7000倍。研究还表明,经过词元过滤训练的模型仍可在遗忘领域进行对齐优化。在此过程中,我们提出了通过稀疏自编码器标注词元、蒸馏廉价高质量分类器的方法论,并证明在足够预训练计算量下,过滤机制对噪声标签具有鲁棒性。
传统基于人类反馈的学习通常依赖偏好优化,其通过词元级正则化来约束策略更新。然而,语言模型的偏好优化面临特殊挑战,因为词元空间的相似性并不等同于语义或行为层面的相似性。为解决这一难题,我们提出利用潜空间正则化进行语言模型偏好优化。本文引入GANPO方法,通过惩罚策略模型与参考模型内部表征之间的差异来实现潜空间正则化。鉴于潜表征缺乏显式概率密度描述,我们采用受生成对抗网络启发的对抗式训练来最小化潜空间差异。我们将GANPO作为正则化项集成到现有离线偏好优化目标中。在多类模型架构和任务上的实验表明,潜空间正则化能带来持续性能提升。进一步通过对比GANPO与词元级正则化引发的推断偏差,发现GANPO在分布偏移和噪声干扰下能提供更稳健的结构性反馈,同时以微小计算开销保持相当的下游性能。
强化学习(RL)后训练是提升大语言模型(LLM)推理能力的主流方法,但越来越多证据表明其效果提升主要源于分布锐化而非新能力的获得。近期研究表明,采用马尔可夫链蒙特卡洛(MCMC)方法对LLM的幂分布进行采样,可在不依赖外部奖励的情况下达到与RL后训练相当的性能;然而MCMC的高计算成本使得该方法难以广泛应用。本研究提出一种理论严密的替代方案,无需迭代式MCMC运算。我们推导出新颖的数学表述,证明全局幂分布可通过标记级缩放低温分布来近似,其中缩放因子可捕捉未来轨迹质量。基于这一发现,我们提出一种免训练、免验证器的算法,能够自回归地锐化基础模型的生成分布。实证阶段,我们在四个LLM上对数学、问答和代码任务进行评估,结果表明本方法在不依赖任何外部奖励的情况下达到或超越单次GRPO效果,同时相比基于MCMC的采样将推理延迟降低逾10倍。
大型语言模型(LLMs)发展迅速,但当前最先进的模型主要基于英语和汉语等高资源语言进行训练与评估,且多由少数拥有大规模算力和数据资源的机构开发。这种技术垄断为主权应用场景设置了实际障碍——在资源有限且需严格遵守透明性要求的条件下,区域或国家层面的机构及领域所有者需对模型权重、训练数据及部署保持控制与理解能力。为此我们提出两大核心需求:(1)可适配性,即将基础模型转化为通用助手的能力;(2)主权能力,即执行高风险区域性特定任务的能力(如使用本地语言进行法律推理及文化知识处理)。我们探究是否无需大规模指令数据集或复杂偏好调优流程与大规模强化微调(RFT)即可实现这些目标。本文提出Typhoon S方案,这是一种极简开放式后训练方法,融合监督微调、同策略蒸馏与小规模RFT。以泰语作为代表性案例,我们证明该方法可将主权适配型与通用型基础模型转化为具有强劲通用性能的指令调优模型。进一步研究发现,采用InK-GRPO(通过添加下一词预测损失扩展GRPO损失函数)的小规模RFT能提升泰语法律推理与泰国特定知识处理能力,同时保持通用性能。实验结果表明,精心设计的后训练策略可降低指令数据与计算资源的规模需求,为学术级资源条件下开发高质量主权LLMs提供了可行路径。
我们正式发布Foundation-Sec-8B-Reasoning——首个面向网络安全领域的开源原生推理模型。该模型基于我们此前开源的Foundation-Sec-8B基础模型(源自Llama-3.1-8B-Base),通过监督微调(SFT)与可验证奖励强化学习(RLVR)两阶段训练流程构建。训练过程采用涵盖网络安全分析、指令遵循和数学推理的专有推理数据集。在10项网络安全基准测试和10项通用基准测试中的评估表明,该模型在网络安全任务上达到与参数量更大模型相媲美的性能,同时保持强大的通用能力。模型在多跳推理任务中展现出有效的泛化能力,在配合适当系统提示与防护机制部署时具有优异的安全表现。本研究表明,领域专用推理模型能够在保持广泛通用能力的同时,在专业任务中实现卓越性能。模型已公开发布于:https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning。
长文本推理能力显著增强了大语言模型处理复杂任务的能力,但由于计算复杂度较高,也带来了严重的效率瓶颈。现有高效方法通常依赖复杂的附加训练或借助外部模型进行压缩,这限制了可扩展性并丢失了关键的细粒度信息。本文提出VTC-R1这一新型高效推理范式,将视觉-文本压缩技术融入推理过程。该范式不再处理冗长的文本轨迹,而是将中间推理片段渲染为紧凑图像,以"光学记忆"的形式迭代反馈给视觉语言模型。基于OpenR1-Math-220K构建的训练数据集实现了3.4倍的token压缩率,并对代表性视觉语言模型Glyph和Qwen3-VL进行微调。在MATH500、AIME25、AMC23和GPQA-D等基准测试上的大量实验表明,VTC-R1持续优于标准长文本推理方法。此外,该方法显著提升了推理效率,端到端延迟加速达2.7倍,凸显其作为推理密集型应用可扩展解决方案的潜力。代码已开源:https://github.com/w-yibo/VTC-R1。
多模态大语言模型(MLLMs)存在跨模态幻觉问题,即某一模态不适当地影响另一模态的生成内容,导致输出结果失真。这暴露了模态交互控制中存在更深层次的缺陷。为解决该问题,我们提出模态自适应解码(MAD)方法,这是一种无需训练的技术,能根据任务需求自适应调整各模态解码分支的权重。MAD通过模型自省机制获取任务所需的模态信息,利用其固有的模态相关性自评估能力。提取的模态概率被用于动态加权对比解码分支,使模型能聚焦相关信息并抑制跨模态干扰。在CMM和AVHBench数据集上的大量实验表明,MAD显著降低了多款音视频语言模型的跨模态幻觉(VideoLLaMA2-AV提升7.8%和2.0%,Qwen2.5-Omni提升8.7%和4.7%)。我们的研究证明,通过自省实现显式模态感知对鲁棒的多模态推理至关重要,为现有对比解码方法提供了理论扩展。代码已开源:https://github.com/top-yun/MAD
现代基于扩散/流模型的图像生成方法通常具备两个核心特征:(i)采用多步采样机制,(ii)在潜在空间中操作。近期研究在各自领域取得鼓舞人心的进展,为无需潜在空间的单步扩散/流模型铺平了道路。本研究朝着该目标迈出关键一步,提出"像素均值流"方法。我们的核心设计原则是分别构建网络输出空间与损失空间:网络目标被设计在预设的低维图像流形上(即x预测),而损失函数则通过速度空间的均值流定义。我们引入了图像流形与平均速度场之间的简易转换关系。实验表明,pMF在ImageNet数据集上实现了256×256分辨率(2.22 FID)和512×512分辨率(2.48 FID)的强效单步无潜在空间生成效果,填补了该领域的关键空白。期待本研究能进一步推动基于扩散/流模型的生成技术边界。
确保大型语言模型生成内容的安全性、真实性与整体质量是一项关键挑战,尤其在模型日益广泛应用于现实场景的背景下。当前主流解决方案依赖于收集成本高昂、精心标注的数据集,并实施多阶段的微调与对齐。然而即便采用如此复杂的流程,仍无法完全纠正预训练阶段习得的不良模式。因此,在预训练阶段解决这些问题至关重要——这不仅能塑造模型的核心行为模式,更能从根本上防止不安全或虚构内容被深度内化。 针对这一挑战,我们提出一种新型预训练方法:通过流式文档处理结合强化学习技术,在每一步优化后续K个生成标记的质量。该方法利用一个经过充分后训练的强判别模型,对候选生成内容(包括模型滚动输出、原始后缀及改写后缀)进行质量、安全性与事实性评估。训练初期主要依赖原始后缀与改写后缀作为基准;随着模型能力提升,强化学习机制会奖励高质量的滚动生成结果。这种方案实现了从根源构建更优质、更安全、更符合事实的模型。 实验表明,相较于标准预训练方法,本方案在事实性与安全性指标上分别实现36.2%和18.5%的相对提升,整体生成质量的胜率改善最高达86.3%。
我们推出DeepSearchQA——一个包含900个提示的基准测试平台,专为评估智能体在17个不同学科领域执行复杂多步信息检索任务的能力而设计。与传统针对单一答案检索或广谱事实性测试的基准不同,DeepSearchQA采用精心设计的高难度任务数据集,重点考察智能体执行复杂搜索计划以生成穷尽式答案列表的能力。这一设计转变明确测试了三个关键但未被充分评估的能力:1)从分散来源系统整合碎片化信息;2)去重与实体消歧以确保精确度;3)在开放式搜索空间中推理终止条件的能力。每个任务均构建为因果链结构,后续步骤的信息发现依赖于前序步骤的成功完成,从而强调长程规划与上下文保持能力。所有任务均基于开放网络且配备可客观验证的答案集。我们对最先进智能体架构的全面评估揭示了显著性能局限:即使最先进的模型也难以平衡高召回率与精确度。我们观察到从过早终止(检索不足)到对冲行为等典型失败模式——后者指智能体通过撒网式提交低置信度答案人为提升召回率。这些发现凸显了当前智能体设计的重大提升空间,也使DeepSearchQA成为推动未来研究向更强大深度检索能力迈进的关键诊断工具。
针对高效密集的思维链推理,潜在推理方法通过微调大语言模型,用连续潜在标记替代离散语言标记。与传统语言思维链推理相比,这些方法消耗更少的标记量,并具备在稠密潜在空间进行规划的潜力。然而现有潜在标记的监督通常基于对语言标签的模仿。考虑到同一问题可能存在多种等价但不同的思维链标签,被动模仿任意标签可能导致次优的潜在标记表示和推理策略,削弱潜在规划能力并造成训练与测试间的明显差距。本研究强调在潜在标记表示空间中进行主动规划对实现最优推理策略的重要性,由此提出主动潜在规划方法(ATP-Latent)。该方法将潜在标记的监督过程建模为条件变分自编码器,以获得更平滑的潜在空间;同时引入基于潜在标记VAE解码内容一致性的辅助连贯性奖励,通过强化学习引导最优推理策略的形成。在LLaMA-1B上的实验表明,ATP-Latent在四个基准测试中相较先进基线实现了+4.1%的准确率提升和-3.3%的标记消耗降低。代码已开源于https://github.com/zz1358m/ATP-Latent-master。
混合Transformer架构通过结合softmax注意力模块与循环神经网络(RNN),在长上下文建模中展现出理想的性能与吞吐量平衡,但其大规模从头预训练的巨大成本阻碍了实际应用与研究。近期研究表明,预训练的softmax注意力模块可通过参数迁移与知识蒸馏转化为RNN模块。然而这些迁移方法需消耗大量训练数据(超过100亿标记),且所得混合模型在长上下文场景下表现不佳——而这正是混合模型相比纯Transformer模型具有显著推理加速优势的场景。本文提出HALO(基于层优化的混合注意力),一种将Transformer模型蒸馏为RNN-注意力混合模型的流程;同时推出HypeNet混合架构,该架构通过新型位置编码方案(命名为HyPE)及多项结构改进,实现了卓越的长度泛化能力。我们使用HALO将Qwen3系列模型转换为HypeNet,在保持与原始Transformer模型相当性能的同时,获得了更优异的长上下文性能与效率。该转换仅需23亿标记,不足其预训练数据量的0.01%。
由于监督训练数据有限,大型语言模型(LLMs)通常需通过自监督的"预测下一词"目标,在海量非结构化文本数据上进行预训练。为使最终模型能有效服务用户,还需使用规模小得多的"指令微调"数据(即由指令与回答组成的监督训练样本)进行进一步训练。为突破监督数据量的限制,我们提出一种方法,可将互联网级预训练文档中的知识转化为数十亿条合成指令与答案的训练配对。由此产生的名为FineInstructions的数据集,采用了约1800万条基于真实用户查询和提示创建的指令模板。这些指令模板通过匹配非结构化预训练语料中的人工撰写源文档并进行实例化。借助如此规模的合成"监督"训练数据,LLM可完全基于指令微调目标从头开始预训练,这与LLMs的下游应用场景(响应用户提示)具有更高的分布一致性。我们进行了严格的逐词元训练对照实验,发现在衡量自由回答质量的标准基准测试中,基于FineInstructions的预训练效果优于标准预训练及其他已提出的合成预训练技术。相关资源详见https://huggingface.co/fineinstructions。
超连接(HC)在神经网络中的成功也凸显了其训练不稳定性和可扩展性受限的问题。流形约束超连接(mHC)通过将残差连接空间投影到Birkhoff多胞体上来缓解这些挑战,但仍面临两个问题:1)其迭代Sinkhorn-Knopp(SK)算法并不总能产生精确的双随机残差矩阵;2)mHC的参数复杂度高达O(n^3C),其中n为残差流宽度,C为特征维度。最近提出的mHC-lite通过Birkhoff-von-Neumann定理对残差矩阵进行重参数化以保证双随机性,但其参数复杂度也面临阶乘爆炸问题,达到O(nC·n!)。为同时解决这两个挑战,我们提出KromHC方法,通过较小双随机矩阵的Kronecker积来参数化mHC中的残差矩阵。通过沿张量化残差流的每个模态对因子残差矩阵实施流形约束,KromHC在保证残差矩阵精确双随机性的同时,将参数复杂度降至O(n²C)。综合实验表明,KromHC在显著减少可训练参数的同时,达到甚至超越了当前最先进的mHC变体性能。代码已开源:https://github.com/wz1119/KromHC。
尽管机械可解释性研究已在大型语言模型中发现可解释电路,但其在训练数据中的因果起源仍不明确。我们提出机械数据归因(MDA)框架,该可扩展方法利用影响函数将可解释单元溯源至特定训练样本。通过对Pythia模型系列的广泛实验,我们因果验证了目标干预——移除或增强少量高影响力样本——能显著调控可解释注意力头的形成,而随机干预则无此效果。分析表明,重复性结构化数据(如LaTeX、XML)发挥着机械催化剂作用。此外,针对归纳头形成的干预会同步改变模型的上下文学习能力,这为归纳头与上下文学习功能关联的长期假说提供了直接因果证据。最后,我们提出一种机械数据增强流程,能持续加速不同规模模型的电路收敛,为引导大语言模型发展轨迹提供了原理性方法。
基于语言模型的智能体在长程交互中持续面临两大挑战:如何保持时序信息的有效留存,以及如何维持跨会话的行为一致性——我们将这种失效模式称为"灵魂侵蚀"。本文提出BMAM(类脑多智能体记忆架构),该通用记忆架构将智能体记忆建模为功能专精的子系统集合,而非单一非结构化存储。受认知记忆系统启发,BMAM将记忆解构为情景记忆、语义记忆、显著性感知记忆和控制导向记忆四个在互补时间尺度运作的组件。为支持长程推理,BMAM沿显性时间轴组织情景记忆,并通过融合多重互补信号进行证据检索。在LoCoMo基准测试中,BMAM在标准长程评估设定下达到78.45%的准确率,消融实验证实受海马体启发的的情景记忆子系统对时序推理具有关键作用。
量化技术已显著提升大语言模型(LLM)训练的计算与内存效率。然而现有方法仍需依赖高精度累积更新:具体而言,梯度更新必须作用于高精度权重缓冲区(即主权重)。该缓冲区会带来显著的内存开销,尤其对于稀疏专家混合模型(SMoE),其模型参数和优化器状态是内存占用的主要来源。为此,我们提出误差补偿优化器(ECO),通过直接将更新应用于量化参数来消除主权重。ECO在每一步后量化权重,并将产生的量化误差精准注入优化器动量,形成无需额外内存的误差反馈循环。我们证明,在标准假设和衰减学习率条件下,ECO能收敛至最优解的常数邻域,而简单移除主权重可能产生与学习率成反比的误差。我们通过预训练小型Transformer模型(30-800M)、Gemma-3 1B模型及2.1B参数稀疏MoE模型(采用FP8量化),以及INT4精度微调DeepSeek-MoE-16B的实验结果验证:ECO在保持接近无损精度的前提下,始终匹配使用主权重的基线方法,显著改善了静态内存与验证损失的帕累托边界。
尺度化已成为视觉基础模型近期取得突破的关键驱动力,但将该范式扩展至度量深度估计领域仍面临挑战,这主要源于异构传感器噪声、相机相关偏差以及跨来源三维数据中存在的度量模糊性。我们提出Metric Anything——一种简单可扩展的预训练框架,能够从嘈杂多样的三维数据源中学习度量深度,无需人工设计的提示、相机特定建模或任务专用架构。我们方法的核心是稀疏度量提示,通过随机掩码深度图生成,作为通用接口将空间推理与传感器及相机偏差解耦。利用涵盖10000种相机型号的重建、采集和渲染三维数据,约2000万张图像-深度对,我们首次在度量深度领域证明了清晰的尺度化趋势。该预训练模型在深度补全、超分辨率和雷达-相机融合等提示驱动任务中表现卓越,其蒸馏出的无提示学生模型则在单目深度估计、相机内参恢复、单/多视角度量三维重建和VLA规划等方面达到顶尖水平。实验还表明,使用Metric Anything预训练ViT作为视觉编码器,可显著提升多模态大语言模型的空间推理能力。这些成果证明度量深度估计同样受益于驱动现代基础模型的尺度定律,为可扩展的高效现实世界度量感知开辟了新路径。我们在http://metric-anything.github.io/metric-anything-io/开源Metric Anything以支持社区研究。
统一多模态模型(UMMs)将视觉理解与生成功能整合于单一框架内,其终极目标是构建理解与生成相互促进的闭环机制。尽管近期的后训练方法已成功利用理解能力提升生成质量,但如何通过生成技术反哺理解能力仍属探索不足的领域。本文提出UniMRG(统一多表征生成),一种简单高效且与架构无关的后训练方法。该方法通过引入辅助生成任务增强UMMs的理解能力:在标准视觉理解目标基础上,训练模型同步生成输入图像的多类内在表征——包括像素级(重建)、深度(几何)及分割(结构)信息。通过融合这些互补性表征,UMMs能够更全面地捕捉外观特征、空间关系和结构布局,从而实现对视觉输入的深层认知。跨多种UMM架构的大规模实验表明,本方法显著提升了细粒度感知能力,减少幻觉现象,增强空间理解效能,同时同步优化了生成性能。
我们提出FROST——一种基于注意力感知的高效推理方法。与传统方法不同,FROST通过利用注意力权重来剪枝非关键推理路径,从而生成更简短可靠的推理轨迹。在方法论上,我们引入推理异常值的概念,并设计了一种基于注意力的机制来消除这些异常值。从理论角度看,FROST在句子级别消除异常值的同时,保持并增强了模型的推理能力。实证方面,我们在四个基准测试中使用两个强推理模型(Phi-4-Reasoning和GPT-OSS-20B)验证了FROST,其表现优于TALE和ThinkLess等最先进方法。值得注意的是,与基础模型相比,FROST实现了平均69.68%的token使用量降低和26.70%的准确率提升。此外,在注意力异常值指标评估中,FROST将最大无穷范数降低了15.97%,平均峰度降低了91.09%。代码已开源:https://github.com/robinzixuan/FROST
视听基础模型通过预训练实现音视频内容的联合生成,近期展现出多模态生成与编辑方面的突破性能力,为下游任务开辟了新路径。其中,视频配音任务可显著受益于此先验知识,但现有方案大多依赖复杂的任务专用流程,难以应对现实场景的挑战。本研究提出一种单模型解决方案,通过轻量级LoRA适配基础音视频扩散模型,实现视频到视频的配音功能。该LoRA模块使模型能够以输入音视频为条件,同步生成翻译后的音频与匹配的口型动作。为训练此模块,我们利用生成模型本身合成同一发言者的多语言配对视频:首先生成包含单片段内语言切换的多语言视频,随后对每半段视频进行面部与音频修复,使其与另半段语言保持一致。通过发挥音视频模型丰富的生成先验优势,我们的方法在保持发言者身份特征与口型同步的同时,对复杂动作和真实场景动态具有强鲁棒性。实验表明,相较于现有配音流程,本方法生成的配音视频在视觉保真度、口型同步及鲁棒性方面均展现出更优品质。
传统强化学习方法在训练大语言模型时通常依赖真实标签或特定任务验证器,这在正确性难以判定或标注成本高昂的场景中限制了可扩展性。我们提出基于元评估的强化学习(RLME)方法,通过自然语言元问题(如“答案是否正确?”或“推理是否逻辑一致?”)的评估结果生成奖励信号来优化生成器。RLME将评估者给出肯定判断的概率作为奖励,采用组相对策略优化更新生成器,实现无标签学习。实验表明:RLME在准确率和样本效率上媲美基于标签的训练;支持多目标可控权衡;引导模型形成可靠推理模式而非事后合理化;在缺乏真实标签的开放域场景中仍具泛化能力,从而拓展了强化学习在大语言模型训练中的应用边界。
随着代码生成领域强化学习的快速发展,构建稳健环境以防止奖励破解已变得至关重要。在基于代码的强化学习中,大语言模型日益承担评估者角色,但其检测奖励破解的能力仍缺乏深入研究。本文提出了一种涵盖54个类别的奖励漏洞新型分类法,并推出TRACE(代码环境中的奖励异常测试)——一个包含517条测试轨迹的合成策划且经人工验证的基准数据集。与以往在孤立分类场景下评估奖励破解检测的研究不同,我们在TRACE上采用更具现实意义的对比式异常检测框架进行对比实验。实验表明,模型在对比设置中捕获奖励漏洞的效果显著优于孤立分类设置,其中GPT-5.2最高推理模式的检测率从孤立设置的45%提升至63%。基于这一发现,我们论证了前沿模型对语义上下文化奖励漏洞的检测难度远高于句法上下文化漏洞。我们进一步开展了模型行为的定性分析,并通过消融实验证明良性轨迹与破解轨迹的比例及分析集群规模会显著影响检测性能。我们公开了基准数据集与评估工具,以推动学界扩展TRACE并评估相关模型。
数学中极值结构的发现需要探索广阔且非凸的复杂空间,传统解析方法难以提供有效指导,而暴力搜索又往往不可行。我们提出FlowBoost——一种闭环生成式框架,通过融合三大组件来学习发现稀有极值几何结构:(一)几何感知的条件流匹配模型,可学习采样高质量构型;(二)结合行动探索的奖励引导策略优化,在保持多样性的同时直接优化生成过程以趋近目标;(三)用于训练数据生成与最终优化的随机局部搜索。相较于PatternBoost等基于过滤离散样本重训练的开放环路方法,或依赖冻结大语言模型作为进化变异算子的AlphaEvolve,FlowBoost在采样阶段强制保证几何可行性,并将奖励信号直接反馈至生成模型,形成闭环优化。该框架仅需少量训练样本和较短训练时长,就能将外层循环迭代次数降低数个量级,同时摆脱对大语言模型的依赖。我们在四个几何优化问题上验证了该框架:超立方体中的球体填充、半径和最大化的圆盘填充、Heilbronn三角形问题以及星形差异最小化。在多个案例中,FlowBoost发现的构型达到或超越了已知最优结果。针对圆盘填充问题,我们提升了已知下界的最佳记录,在显著减少计算资源消耗的同时超越了基于大语言模型的AlphaEvolve系统。
音频指纹技术能够为声学信号生成可识别的表征,该表征后续可用于身份识别与检索系统。为获得区分性表征,输入音频通常被分割为较短时段,以便提取和分析局部声学特征。现代神经网络方法通常处理短时固定长度的音频片段,但片段时长的选择往往基于经验判断,鲜有深入研究。本文系统探究了片段长度对音频指纹性能的影响,通过扩展现有神经指纹架构以适配不同时段长度,并评估了不同片段长度与查询时长下的检索精度。实验结果表明,较短片段长度(0.5秒)通常能获得更优性能。此外,我们评估了大语言模型在推荐最优片段长度方面的能力,发现在三种测试模型中,GPT-5-mini在五项评估维度上均能给出最佳建议。本研究为大规模神经音频检索系统中片段时长的选择提供了实践指导。
平面设计常常需要探索不同的风格方向,这对非专业人士而言十分耗时。我们致力于解决基于自然语言指令实现设计风格优化的问题。尽管视觉语言模型(VLM)在平面设计领域已取得初步成果,但其预训练的风格知识往往过于笼统,且与特定领域数据存在偏差。例如,视觉语言模型可能将极简主义与抽象设计相关联,而设计师更注重造型与色彩的选择。我们的核心思路是利用设计数据——即隐含设计师创作原则的真实设计案例集合——来学习设计知识并指导风格优化。我们提出PRISM(先验知识驱动的风格优化方法),通过三个阶段构建并应用设计知识库:(1)对高方差设计进行聚类以捕捉风格内部的多样性;(2)将每个聚类总结为可操作的设计知识;(3)在推理过程中检索相关知识以实现风格感知的优化。在Crello数据集上的实验表明,PRISM在风格对齐度上以1.49的平均排名(越接近1越好)超越基线模型。用户研究进一步验证了这些结果,显示设计师对PRISM的输出具有持续偏好。
Web智能体在自动化复杂计算机任务方面潜力巨大,但其交互过程涉及具有不可逆操作的长期序贯决策。在此类场景中,基于结果的监督信号稀疏且延迟,常常错误奖励错误轨迹且无法支持推理时扩展。这促使研究者采用过程奖励模型(WebPRMs)进行网络导航,但现有方法仍存在局限:标量化WebPRMs将进展压缩为粗糙的弱基础信号,而清单式WebPRMs依赖脆弱的模板匹配,在布局或语义变化时失效,且常将表面正确的动作误判为成功,缺乏可解释性。为解决这些挑战,我们提出WebArbiter——一种推理优先、原则诱导的WebPRM,将奖励建模构建为文本生成任务,生成包含偏好结论的结构化论证,并识别当前情境下最有利于任务完成的动作。训练采用两阶段流程:推理蒸馏使模型掌握连贯的原则指导推理,强化学习通过直接对齐结论与正确性来修正教师偏见,从而实现更强泛化能力。为支持系统评估,我们发布WebPRMBench综合基准,涵盖四个多样化网络环境,包含丰富任务和高质量偏好标注。在WebPRMBench上,WebArbiter-7B以9.1分优势超越最强基线GPT-5;在WebArena-Lite的奖励引导轨迹搜索中,其表现较最佳现有WebPRM提升达7.2分,彰显了其在现实复杂网络任务中的鲁棒性与实用价值。
视觉基础模型为机器人学提供了强大的感知特征,但其稠密表征缺乏显式的物体级结构,限制了操作任务中的鲁棒性与可伸缩性。我们提出STORM(基于槽位的任务感知物体中心表征),这是一种轻量级物体中心适配模块,通过为冻结的视觉基础模型添加少量语义感知槽位来增强机器人操作能力。与重新训练大型骨干网络不同,STORM采用多阶段训练策略:首先通过语言嵌入的视觉-语义预训练稳定物体中心槽位,随后与下游操作策略联合适配。这种分阶段学习可防止槽位退化形成,在感知与任务目标对齐的同时保持语义一致性。在物体发现基准测试和仿真操作任务上的实验表明,相较于直接使用冻结基础模型特征或端到端训练物体中心表征,STORM能显著提升对视觉干扰物的泛化能力和控制性能。我们的研究结果凸显了多阶段适配作为一种高效机制,可将通用基础模型特征转化为适用于机器人控制的任务感知型物体中心表征。
机器人操作策略的泛化能力受视觉表征选择的显著影响。现有方法通常依赖预训练编码器提取的两种主流特征:全局特征通过单一池化向量概括整幅图像,稠密特征则保留最终编码器层的分块嵌入。尽管应用广泛,这两种特征均混合了任务相关与无关信息,导致在光照、纹理变化或干扰物出现等分布偏移场景下泛化能力不足。本研究探索了一种结构化折中方案:基于槽位的物体中心表征(SBOCR),该方法将稠密特征分组为有限个类物体实体。这种表征能自然减少输入机器人操作策略的噪声,同时保留足够信息以高效完成任务。我们在从简单到复杂的仿真与真实世界操作任务中,系统对比了多种全局/稠密表征与基于槽位的中间表征。通过评估不同视觉条件(包括光照/纹理变化和干扰物存在)下的泛化表现,发现基于SBOCR的策略在泛化场景中优于稠密和全局表征策略,且无需任务特定预训练。这些发现表明,SBOCR为设计能有效适应动态真实机器人环境的视觉系统提供了新方向。
生成式基础模型(常被称为"世界模型")的最新进展,激发了人们将其应用于机器人规划与自主系统训练等关键任务的兴趣。为确保可靠部署,这些模型必须具备高物理保真度,能精准模拟现实世界动态。然而现有基于物理的视频基准存在概念纠缠问题——单个测试同时评估多个物理定律与概念,这从根本上限制了其诊断能力。我们推出WorldBench这一新型视频基准,专门针对特定概念进行解耦评估,可严格分离并逐项检验对单一物理概念或定律的理解。为使WorldBench具备全面性,我们设计了两级基准:1)评估对物体恒存性、尺度/透视等直观物理概念的理解;2)评估对摩擦系数、流体黏度等底层物理常量与材料属性的认知。当基于视频的顶尖世界模型在WorldBench上接受测试时,我们发现所有模型均在特定物理概念上存在系统性缺陷,缺乏生成可靠真实世界交互所需的物理一致性。通过这种针对性评估框架,WorldBench为严格检验视频生成与世界模型的物理推理能力提供了更精细、可扩展的解决方案,为构建更强健、泛化能力更强的世界模型驱动学习铺平道路。