每日精選AI研究論文及翻譯
基於大型語言模型(LLM)的自主科學發現近期取得顯著進展,展現出自動化端到端研究流程的能力。然而,現有系統主要依賴以運行時為中心的執行範式,需反覆在線閱讀、總結和推理大量科學文獻。這種即時計算策略不僅計算成本高昂,受制於上下文窗口限制,還容易導致脆弱的推理過程和幻覺現象。我們提出Idea2Story——一個以預計算驅動的自主科學發現框架,將文獻理解從在線推理轉向離線知識構建。該框架持續收集經同行評審的論文及其審稿反饋,提取核心方法單元,組合可重用的研究模式,並將其組織成結構化的方法論知識圖譜。在運行時,未充分明確的用戶研究意圖會與已確立的研究範式對齊,實現高效檢索和複用高質量研究模式,而非依賴開放式生成和試錯法。通過將研究規劃與執行錨定於預構建的知識圖譜,Idea2Story緩解了LLM的上下文窗口瓶頸,大幅減少了運行時對文獻的重複推理。我們通過定性分析和初步實證研究表明,Idea2Story能生成連貫、方法論紮實且新穎的研究模式,並在端到端環境中產出多個高質量研究範例。這些結果證明,離線知識構建為可靠的自主科學發現提供了具實踐性與可擴展性的基礎。
文字生成圖像(T2I)模型在生成高擬真度影像方面已取得顯著成功,但在處理複雜空間關係(如空間感知、推理或互動)時往往表現不佳。由於現有基準測試的提示設計過於簡短或資訊稀疏,這些關鍵面向長期被忽視。本文提出SpatialGenEval——一個系統性評估T2I模型空間智能的新基準,涵蓋兩大核心維度:(1)該基準包含25個真實場景中的1,230條長文本、高資訊密度的提示詞,每條提示詞整合10個空間子領域及其對應的10組選擇題問答對,內容橫跨物體位置、佈局、遮擋關係到因果推理。我們對21個前沿模型的廣泛評估表明,高階空間推理仍是主要瓶頸。(2)為驗證高資訊密度設計的價值不僅限於評估,我們同步構建SpatialT2I數據集,包含15,400個經改寫的文本-影像對,在保持資訊密度的同時確保影像一致性。在現有基礎模型(如Stable Diffusion-XL、Uniworld-V1、OmniGen2)上的微調實驗顯示出穩定的性能提升(+4.2%、+5.7%、+4.4%),並在空間關係呈現上產生更逼真的效果,彰顯了以數據為核心實現T2I模型空間智能的新範式。
雖然混合專家模型已成為大型語言模型中稀疏擴展的標準架構,但其正面臨邊際效益遞減與系統層級瓶頸的雙重挑戰。本研究探討嵌入擴展作為一種高效且正交的稀疏擴展維度。透過全面分析與實驗,我們確定了嵌入擴展在特定情境下能較專家擴展獲得更優帕累托前沿的關鍵條件。我們系統性地剖析了主導此效能的關鍵架構因素——從參數預算分配,到與模型寬度及深度的相互作用。更進一步地,透過整合定制化系統優化與預測解碼技術,我們成功將此稀疏性轉化為實際的推理加速效益。基於這些發現,我們提出LongCat-Flash-Lite模型:一個具有680.5億總參數、約30億激活參數的從頭訓練模型。儘管該模型為嵌入層分配了超過300億參數,LongCat-Flash-Lite不僅在同等參數規模下超越混合專家基準模型,更在智能體與程式碼生成領域展現出與現有同規模模型相匹敵的卓越競爭力。
操作動態物體對視覺-語言-動作模型而言仍是開放性挑戰。儘管這類模型在靜態操作任務中展現出強大的泛化能力,但在需要快速感知、時間預測與連續控制的動態場景中仍表現不佳。我們提出DynamicVLA框架,透過三項關鍵設計實現動態物體操作:1)採用卷積視覺編碼器的緊湊型0.4B參數VLA模型,實現空間效率高且結構保真的編碼,支援快速多模態推理;2)連續推理機制,透過重疊執行推理與動作降低延遲,即時適應物體運動;3)潛在感知動作流技術,透過強制時間對齊的動作執行來彌合感知與執行間的差距。為填補動態操作數據的空白,我們建立動態物體操作基準數據集DOM,透過自動化數據採集流程從零構建,高效收集涵蓋2,800個場景、206種物體的20萬條合成操作片段,並可快速採集2,000條無需遙控操作的真實世界片段。大量實驗表明,該框架在響應速度、感知能力和泛化性能上取得顯著提升,使DynamicVLA成為跨具身應用的通用動態物體操作統一框架。
大型視覺語言模型的發展推動了對多模態海量數據管理與應用的需求,使得從視覺圖像中提取信息的OCR技術日益受到關注。然而現有OCR方法主要聚焦於從圖像或掃描文檔中識別文本元素(文本中心型OCR),卻忽視了從圖表、網頁和科學圖譜等視覺信息密集的圖像源中識別視覺元素(視覺中心型OCR)。這類視覺信息密集圖像在互聯網中廣泛存在,於數據可視化、網頁分析等場景具有重要應用價值。本技術報告提出OCRVerse——首個端到端的整體化OCR方法,實現文本中心型與視覺中心型OCR的統一處理。為此我們構建了覆蓋報刊、雜誌、書籍等文本中心型文檔,以及圖表、網頁、科學圖譜等視覺中心型渲染圖像的綜合數據工程。此外,我們提出兩階段SFT-RL多領域訓練方法:SFT階段通過直接混合跨領域數據建立初始領域知識,RL階段則針對各領域特性設計個性化獎勵策略。由於不同領域需輸出多樣化格式與預期結果,我們在RL階段提供充分靈活性,為各領域定制彈性獎勵信號,從而增強跨領域融合並避免數據衝突。實驗結果驗證了OCRVerse的有效性,其在文本中心型與視覺中心型數據上均取得具有競爭力的成果,甚至可與大規模開源及閉源模型相媲美。
近期視覺語言模型(VLM)的突破顯著推動了視覺推理領域的發展。然而,開源VLM仍落後於專有系統,主因在於缺乏高品質的推理數據。現有數據集對STEM圖表與視覺謎題等挑戰性領域的覆蓋有限,且缺乏能激發強推理能力所需的連貫長式思維鏈註解。為彌合此差距,我們推出MMFineReason——一個包含180萬樣本與51億解題標記的大規模多模態推理數據集,其高品質推理註解源自Qwen3-VL-235B-A22B-Thinking的知識蒸餾。該數據集通過系統化三階段流程構建:(1) 大規模數據收集與標準化,(2) 思維鏈原理生成,(3) 基於推理品質與難度感知的綜合篩選。最終數據集涵蓋STEM問題、視覺謎題、遊戲及複雜圖表,每個樣本均附有視覺化錨定的推理軌跡。我們以MMFineReason對Qwen3-VL-Instruct進行微調,開發出MMFineReason-2B/4B/8B版本。這些模型在其參數規模級別創下最新性能紀錄:MMFineReason-4B成功超越Qwen3-VL-8B-Thinking,而MMFineReason-8B甚至優於Qwen3-VL-30B-A3B-Thinking,並逼近Qwen3-VL-32B-Thinking,展現卓越的參數效率。關鍵在於,我們透過難度感知篩選策略發現「少即是多」現象:僅7%(12.3萬樣本)的子集即可達到與完整數據集相當的性能。尤為重要的是,我們揭示了以推理為導向的數據組合能同步提升通用能力的協同效應。
大型語言模型對所有詞元均勻分配計算資源,卻忽略了某些序列可輕鬆預測而另一些則需深度推理的特性。我們提出ConceptMoE模型,能動態將語義相似的詞元合併為概念表徵,實現隱性的詞元級計算資源分配。可學習的分塊模組通過測量詞元間相似度來識別最佳邊界,在序列進入計算密集的概念模型前按目標壓縮比R進行壓縮。關鍵在於,MoE架構實現了可控評估:我們重新分配節省的計算量以匹配基準模型的激活FLOPs(不含注意力圖計算)與總參數量,從而分離出真實的架構優勢。在此條件下,ConceptMoE在語言與視覺語言任務中持續超越標準MoE模型,在語言預訓練任務上提升0.9個點,長上下文理解任務提升2.3個點,多模態基準測試提升0.6個點。通過層循環技術在持續訓練中轉換預訓練MoE模型時,增益可達5.5個點,展現出實用價值。除性能提升外,ConceptMoE將注意力計算量最高降低至R^2倍,KV緩存降低至R倍。實測顯示當R=2時,長序列的預填充速度最高提升175%,解碼速度最高提升117%。極簡的架構修改使其能無縫集成至現有MoE系統,證明自適應的概念級處理能從根本上提升大型語言模型的效能與效率。
基於單目影像序列的即時三維重建技術仍面臨挑戰,現有方法通常難以兼顧高品質渲染與精確幾何結構。我們提出PLANING框架,該高效能即時重建系統基於混合表徵建構,通過鬆散耦合的幾何圖元與神經高斯表徵,實現幾何結構與外觀屬性的解耦建模。這種解耦機制支援線上初始化與優化策略,使幾何更新與外觀更新分離執行,從而實現結構冗餘大幅降低的穩定串流重建。PLANING在稠密網格的Chamfer-L2誤差上較PGSR提升18.52%,PSNR指標超越ARTDECO達1.31 dB,重建ScanNetV2場景耗時不足100秒,速度超越二維高斯潑濺技術5倍以上,且重建品質可媲美離線逐場景優化方法。除重建品質優勢外,\modelname~具備的結構清晰度與計算效率,使其特別適合大規模場景建模、具身智能所需的即用型仿真環境等下游應用。項目頁面:https://city-super.github.io/PLANING/ 。
本报告推出Qwen3-ASR系列模型,包含两款全能型语音识别模型和创新的非自回归语音强制对齐模型。Qwen3-ASR-1.7B与Qwen3-ASR-0.6B作为语音识别模型,支持52种语言与方言的语种识别及语音转写。两款模型均基于大规模语音训练数据,充分发挥基础模型Qwen3-Omni强大的音频理解能力。除开源基准测试外,我们还进行了全面的内部评估——因为语音识别模型在开源基准上的得分可能相差无几,但在实际场景中却表现出显著的质量差异。实验表明:1.7B版本在开源语音识别模型中达到SOTA性能,与最强商业API持平;0.6B版本则实现了最佳的精度-效率平衡,其平均首字延迟可低至92毫秒,在128并发下仅需1秒即可完成2000秒语音转写。Qwen3-ForcedAligner-0.6B是基于大语言模型的非自回归时间戳预测器,可对11种语言的文本-语音进行对齐。时间戳精度实验证明,该模型在三大核心指标上超越现有最强强制对齐模型,并在效率与多语言适应性方面优势显著。为加速语音识别与音频理解领域的社区研究,我们以Apache 2.0协议开源这些模型。
大型语言模型(LLMs)向自主智能体的演进,亟需对海量动态上下文信息进行有效管理。然而现有基准测试大多保持静态特性,依赖被动检索任务,难以模拟智能体与环境交互中的非线性推理、迭代反馈等复杂场景。为此,我们提出基于横向思维谜题的环境推演评估框架AgentLongBench,通过在知识密集型与知识无关场景中生成严谨的交互轨迹进行智能体评估。针对先进模型与内存系统(32K至400万词元)的实验揭示关键缺陷:智能体虽擅长静态检索,却在工作流必需的信息动态整合方面表现不佳。分析表明,性能退化与解决查询所需的最小词元数量直接相关,这解释了为何海量工具响应固有的高信息密度,远比长轮对话中常见的内存碎片化现象更具挑战性。
智能体强化学习(Agentic RL)在实现复杂推理与工具使用方面取得了显著成功。然而,现有方法大多仍依赖稀疏的结果型奖励进行训练,此类反馈无法区分中间推理质量,导致训练效果欠佳。本文提出智能体推理奖励模型(Agent-RRM),该多维度奖励模型可为智能体轨迹生成结构化反馈,包括:(1)显式推理路径;(2)通过突出推理缺陷提供优化指导的聚焦式批判;(3)评估过程性能的综合评分。基于这些信号,我们系统研究三种集成策略:Reagent-C(文本增强优化)、Reagent-R(奖励增强引导)和Reagent-U(统一反馈集成)。在12个多样化基准测试上的广泛实验表明,Reagent-U实现了性能飞跃——在GAIA和WebWalkerQA上分别达到43.7%和46.2%的准确率,验证了推理奖励模型与训练方案的有效性。我们已全面公开代码、模型和数据集以促进后续研究。
近期长视频生成研究已从双向模型转向自回归模型,但这些方法普遍存在误差累积和长期连贯性丧失的问题。虽然注意力汇聚帧的引入缓解了性能衰减,但其常会引发我们称之为"汇聚塌陷"的关键故障模式:生成内容会反复回归至汇聚帧,导致场景突然重置和循环运动模式。通过分析我们发现,汇聚塌陷源于旋转位置编码(RoPE)的周期结构与当前生成模型中普遍采用的多头注意力机制之间的内在冲突。为此,我们提出一种轻量级、无需训练的方法,通过引入多头RoPE扰动来打破头间注意力同质化,从而有效抑制此类行为并缓解长序列塌陷。大量实验表明,我们的方法在保持生成质量的同时成功缓解了汇聚塌陷现象。据我们所知,本研究首次实现了质量几乎无衰减的实时流式无限长视频生成。为验证其鲁棒性,我们生成了长达12小时的连续视频,这应是目前公开演示的流式视频生成中最长的成果之一。
近期,脑电图(EEG)基础模型已成为脑机接口(BCI)领域极具前景的研究范式,其目标是从大规模异构记录数据中学习可迁移的神经表征。尽管发展迅速,但由于预训练目标、预处理方法及下游评估协议的不一致,现有EEG基础模型尚缺乏公平全面的比较研究。本文旨在填补这一空白。我们首先回顾了50个代表性模型,并将其设计选择归纳为统一分类框架,涵盖数据标准化、模型架构和自监督预训练策略三大维度。随后,我们在涵盖九类BCI范式的13个EEG数据集上,系统评估了12个开源基础模型及具有竞争力的专业基线模型。为强调实际部署需求,我们同时考察了留一被试协议下的跨被试泛化能力,以及被试内少样本场景下的快速校准性能。通过对比全参数微调与线性探测两种迁移方式,我们评估了预训练表征的可迁移性,并探究了模型规模与下游性能的关联。实验结果表明:1)线性探测常不足以充分挖掘模型潜力;2)从头训练的专业模型在多数任务中仍具竞争力;3)在当前数据规模与训练范式下,扩大基础模型规模未必能提升泛化性能。
尽管大语言模型在基于语言的代理任务中表现出色,但其在未见过的非语言环境(如符号或空间任务)中的适用性仍然有限。先前研究将这种性能差距归因于预训练分布与测试分布之间的不匹配。本研究通过实验证明,主要瓶颈在于探索成本过高:掌握这些任务需要大量试错过程,这对于在高维语义空间中运行的大参数量大语言模型而言,在计算上是不可持续的。为此,我们提出SCOUT(未见任务的子规模协作)框架,该创新方案将探索与利用过程解耦。我们采用轻量级"侦察器"(如小型MLP),以远超大语言模型的速度和规模探测环境动态。收集到的轨迹数据通过监督微调来引导大语言模型,再经过多轮强化学习激活其潜在的世界知识。实验表明,SCOUT框架使Qwen2.5-3B-Instruct模型平均得分达到0.86,显著优于Gemini-2.5-Pro(0.60)等专有模型,同时节省约60%的GPU时耗。
公共代码库托管着数百万个精调模型,但社区使用量仍不成比例地集中在少数基础模型上。本研究旨在探究这种集中现象究竟反映了有效的市场选择,还是存在系统性忽视优质模型的情况。通过对2000多个模型进行广泛评估,我们发现"隐藏瑰宝"现象普遍存在——这些冷门的精调模型显著优于热门模型。值得注意的是,在Llama-3.1-8B模型系列中,我们发现了下载量极低的检查点,其数学推理能力从83.2%提升至96.0%,且未增加推理成本。然而,通过对每个上传模型进行穷举评估来发现优质模型在计算上是不可行的。为此,我们将模型发现问题建模为多臂老虎机问题,通过采用共享查询集和激进淘汰机制,对序贯二分搜索算法进行加速。我们的方法仅需对每个候选模型进行50次查询即可定位最优模型,将发现效率提升超过50倍。
当前减少语言模型中不良能力的主流方法多为事后补救型,因而极易被攻击者规避。一种自然的替代方案是在预训练阶段就进行能力塑造。以消除医疗能力为代理任务,我们发现简单的预训练数据过滤干预措施具有高度有效性、鲁棒性且能实现低成本规模化。受数据归因研究的启发,我们证明基于词元的过滤比文档过滤更有效,能在降低对良性能力影响的同时实现同等程度的不良能力抑制。通过训练跨越两个数量级的模型,我们进一步证实过滤效果随规模扩大而增强:对于最大模型,词元过滤可使目标遗忘领域的计算速度降低7000倍。研究还表明,经过词元过滤训练的模型仍可在遗忘领域进行对齐优化。在此过程中,我们提出通过稀疏自编码器进行词元标注的方法,并提炼出低成本、高质量的分类器。此外,我们还证明当预训练计算量充足时,过滤方法对噪声标签具有鲁棒性。
基於人類回饋的學習通常依賴偏好優化,其透過詞元層級的規範化來約束策略更新。然而,語言模型的偏好優化尤其具有挑戰性,因為詞元空間的相似性並不意味著語義或行為的相似性。為解決此問題,我們利用潛在空間規範化進行語言模型偏好優化。本文提出GANPO方法,通過懲罰策略模型與參考模型內部表徵之間的差異來實現潛在空間規範化。鑒於潛在表徵不具有顯式機率密度,我們採用受生成對抗網絡啟發的對抗式方法來最小化潛在空間差異。我們將GANPO作為規範化項整合至現有的離線偏好優化目標中。在多種模型架構與任務上的實驗表明,潛在空間規範化能帶來持續改進。進一步通過比較GANPO與詞元層級規範化所誘導的推論偏差,我們發現GANPO在分佈偏移和噪聲條件下能提供更穩健的結構性回饋,同時以微小的計算開銷保持相當的下游任務性能。
強化學習(RL)後訓練是提升大型語言模型(LLM)推理性能的主流方法,但越來越多證據表明其效果提升主要源於分佈銳化而非新能力的獲得。近期研究表明,使用馬爾可夫鏈蒙特卡洛(MCMC)從LLM的冪分佈中採樣,無需依賴外部獎勵即可達到與RL後訓練相當的性能;然而MCMC的高計算成本使此類方法難以廣泛應用。本文提出一種理論嚴謹的替代方案,無需迭代式MCMC推演。我們推導出新穎的數學表述,證明全局冪分佈可通過標記級別的低溫縮放分佈來逼近,其中縮放因子捕獲了未來軌跡質量。基於此洞見,我們提出一種免訓練、免驗證器的算法,以自迴歸方式銳化基礎模型的生成分佈。實證方面,我們在四種LLM上針對數學、問答和編程任務進行評估,結果表明本方法在無需外部獎勵的情況下,性能匹配或超越單次GRPO,同時相比基於MCMC的採樣將推理延遲降低逾10倍。
大型语言模型(LLMs)发展迅猛,但当前最先进的模型主要基于英语和汉语等高资源语言进行训练与评估,且多由少数拥有大规模算力和数据资源的机构开发。这种技术壁垒为主权应用场景带来了实际障碍——在资源有限且需严格遵守透明度要求的条件下,区域或国家层面的机构及领域所有者仍需保持对模型权重、训练数据及部署的掌控与理解。为此我们提出两大核心需求:(1)可适配性:将基础模型转化为通用助手的能力;(2)主权能力:执行高风险区域性任务的能力(如使用本地语言进行法律推理及文化知识应用)。我们探究是否能在不依赖海量指令数据、复杂偏好调优流程或大规模强化微调(RFT)的前提下实现这些目标。本文提出Typhoon S方案,这是一种极简开放式后训练方法,结合了监督微调、同策略蒸馏与小规模RFT。以泰语作为代表性案例,我们证明该方法能将主权适配型与通用型基础模型转化为具有强劲通用性能的指令调优模型。进一步研究发现,采用InK-GRPO(通过添加下一词预测损失扩展GRPO损失函数)的小规模RFT可提升泰语法律推理与本土知识应用能力,同时保持通用性能。实验结果表明,精心设计的后训练策略能降低指令数据与计算资源的规模需求,为学术级资源条件下开发高质量主权LLMs提供了可行路径。
我们正式发布Foundation-Sec-8B-Reasoning,这是首个面向网络安全领域的开源原生推理模型。该模型基于我们先前发布的Foundation-Sec-8B基础模型(源自Llama-3.1-8B-Base),通过结合监督微调(SFT)和可验证奖励强化学习(RLVR)的两阶段训练流程构建而成。我们的训练采用了涵盖网络安全分析、指令遵循和数学推理的专有推理数据集。在10项网络安全基准测试和10项通用基准测试中的评估表明,该模型在网络安全任务上可与规模显著更大的模型竞争,同时保持了强大的通用能力。该模型在多跳推理任务中展现出有效的泛化能力,在配合适当系统提示和防护机制部署时表现出卓越的安全性。本研究表明,领域专用推理模型能够在保持广泛通用能力的同时,在专业任务上实现强劲性能。我们已通过https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning 公开释放该模型。
長文本推理能力顯著增強了大語言模型處理複雜任務的能力,但由於計算複雜度問題也帶來了嚴重的效率瓶頸。現有的高效方法通常依賴複雜的附加訓練或借助外部模型進行壓縮,這限制了可擴展性並丟失了關鍵的細粒度信息。本文提出VTC-R1這一新型高效推理範式,將視覺-文本壓縮技術整合到推理過程中。該方法無需處理冗長的文本軌跡,而是將中間推理片段渲染成緊湊的圖像,並作為"光學記憶"迭代反饋給視覺語言模型。我們基於OpenR1-Math-220K構建訓練數據集,實現3.4倍的標記壓縮率,並對代表性視覺語言模型Glyph和Qwen3-VL進行微調。在MATH500、AIME25、AMC23和GPQA-D等基準測試上的大量實驗表明,VTC-R1始終優於標準長文本推理方法。此外,本方法顯著提升推理效率,端到端延遲加速達2.7倍,展現了其作為推理密集型應用可擴展解決方案的潛力。代碼已開源於https://github.com/w-yibo/VTC-R1。
多模态大语言模型(MLLMs)存在跨模态幻觉问题,即某一模态不适当地影响其他模态的生成内容,导致虚构输出。这暴露了模态交互控制中更深层的缺陷。为此,我们提出模态自适应解码(MAD),这是一种无需训练的方法,能根据任务需求自适应地加权特定模态的解码分支。MAD通过查询每个任务所需模态,利用模型固有的模态相关性自评估能力。提取的模态概率随后用于自适应加权对比解码分支,使模型能聚焦相关信息并抑制跨模态干扰。在CMM和AVHBench上的大量实验表明,MAD显著降低了多款音视频语言模型的跨模态幻觉(VideoLLaMA2-AV提升7.8%和2.0%,Qwen2.5-Omni提升8.7%和4.7%)。我们的方法证明,通过自评估实现的显式模态感知对稳健的多模态推理至关重要,为现有对比解码方法提供了理论扩展。代码已开源:https://github.com/top-yun/MAD。
现代基于扩散/流模型的图像生成方法通常具备两个核心特征:(i)采用多步采样策略,(ii)在隐空间中进行操作。近期研究在各自领域均取得突破性进展,为无需隐空间的单步扩散/流模型开辟了道路。本研究朝着这一目标迈进,提出"像素均值流"(pMF)方法。我们的核心设计理念是将网络输出空间与损失空间分别进行建模:网络目标被设计在预设的低维图像流形上(即x预测),而损失函数则通过速度空间中的均值流来定义。我们引入了图像流形与平均速度场之间的简易转换机制。实验表明,pMF在ImageNet数据集上实现了无需隐空间的单步生成,在256×256分辨率(FID=2.22)和512×512分辨率(FID=2.48)均取得优异效果,填补了该领域的关键空白。我们期待此项研究能进一步拓展基于扩散/流的生成模型的边界。
确保大型语言模型生成内容的安全性、真实性和整体质量是一项关键挑战,尤其在模型日益广泛应用于现实场景的背景下。当前主流解决方案需要耗费巨资收集精心标注的数据集,并实施多阶段的微调与对齐处理。然而即便采用如此复杂的流程,仍无法完全修正模型在预训练阶段习得的不良模式。因此,在塑造模型核心行为的预训练阶段解决这些问题至关重要,这能从根本上防止不安全或虚构内容输出模式的固化。 针对这一难题,我们提出了一种新型预训练方法:通过流式文档处理结合强化学习技术,逐步优化后续K个生成标记的质量。该方法利用经过充分训练的后训练模型作为评判者,对包括模型滚动输出、原始后缀及改写后缀在内的候选生成内容,从质量、安全性和事实性三个维度进行综合评估。在训练初期,系统主要依赖原始后缀与改写后缀作为参照;随着模型性能提升,强化学习机制开始对高质量滚动输出给予奖励。这种设计实现了从底层构建更优质、更安全、更符合事实的模型。 实验结果表明,相较于标准预训练方法,本方案在事实准确性方面实现36.2%的相对提升,安全性提升达18.5%,在整体生成质量评估中最高获得86.3%的胜率提升。
我们推出DeepSearchQA——一个包含900个提示的基准测试集,用于评估智能体在17个不同学科领域中执行复杂多步骤信息检索任务的能力。与传统基准测试聚焦于单一答案检索或广谱事实性验证不同,DeepSearchQA采用精心设计的挑战性任务数据集,专门评估智能体执行复杂搜索计划以生成穷尽式答案列表的能力。这种设计转变明确检验了三个关键但未被充分评估的能力:1)从分散来源系统整合碎片化信息;2)通过去重和实体解析确保答案精确性;3)在开放式搜索空间中推理终止标准的能力。每个任务均构建为因果链结构,后续步骤的信息发现依赖于前序步骤的成功完成,以此检验长程规划与上下文保持能力。所有任务均基于开放网络资源,并配备可客观验证的答案集。我们对最先进智能体架构的全面评估揭示了显著性能局限:即使最先进的模型也难以平衡高召回率与精确度。我们观察到从过早终止(检索不足)到对冲行为等典型失败模式——后者表现为智能体通过撒网式提交低置信度答案人为提升召回率。这些发现凸显了当前智能体设计的重大提升空间,也确立了DeepSearchQA作为推动未来研究向更强健深度检索能力迈进的关键诊断工具地位。
針對高效密集的思維鏈推理,潛在推理方法通過微調大型語言模型,用連續潛在標記替代離散語言標記。相較傳統語言思維鏈推理,這類方法消耗更少標記量,並具備在稠密潛在空間中進行規劃的潛力。然而現有潛在標記通常基於模仿語言標籤進行監督學習。考慮到單個問題可能存在多個等效但多樣化的思維鏈標籤,被動模仿任意標籤可能導致次優的潛在標記表徵和推理策略,削弱潛在規劃能力並造成訓練與測試間的明顯差距。本研究強調在潛在標記表徵空間中進行主動規劃對實現最優推理策略的重要性,據此提出主動潛在規劃方法(ATP-Latent)。該方法將潛在標記的監督過程建模為條件變分自編碼器,以獲得更平滑的潛在空間;同時引入基於潛在標記VAE解碼內容一致性的輔助連貫性獎勵,開展強化學習來引導最合理的潛在推理策略。在LLaMA-1B上的實驗表明,ATP-Latent在四個基準測試中相比先進基線模型實現準確率提升4.1%、標記消耗降低3.3%。代碼已開源於https://github.com/zz1358m/ATP-Latent-master。
混合式Transformer架构通过结合softmax注意力模块与循环神经网络(RNN),在长上下文建模中展现出理想的性能与吞吐量平衡,但其大规模从头预训练的巨大成本阻碍了实际应用与研究。近期研究表明,通过参数迁移与知识蒸馏可将预训练的softmax注意力模块转化为RNN模块。然而这些迁移方法需消耗大量训练数据(超过100亿标记),且所得混合模型在长上下文场景下表现不佳——而该场景恰是混合模型相较纯Transformer模型具有显著推理加速优势的领域。本文提出HALO(基于层级优化的混合注意力),构建了将Transformer模型蒸馏为RNN-注意力混合模型的完整流程。进而推出HypeNet混合架构,该架构通过新型位置编码方案(命名为HyPE)及多项结构改进,实现了卓越的长度泛化能力。我们运用HALO将Qwen3系列模型转换为HypeNet架构,在保持与原Transformer模型相当性能的同时,获得了更优异的长上下文处理能力与效率。整个转换过程仅需23亿标记,不足其预训练数据量的0.01%。
由于监督式训练数据有限,大型语言模型(LLMs)通常通过自监督的"预测下一词"目标,在海量非结构化文本数据上进行预训练。为使训练后的模型能有效服务用户,还需使用规模小得多的"指令微调"数据(即由指令与回应组成的监督训练样本)进行进一步训练。为突破监督数据量的限制,我们提出一种方法,可将互联网级预训练文档中的知识转化为数十亿条合成的指令-答案训练对。由此产生的名为FineInstructions的数据集,利用约1800万条基于真实用户查询和提示创建的指令模板,通过匹配非结构化预训练语料中的人工撰写源文档并进行实例化。借助如此规模的合成"监督"训练数据,大型语言模型可完全基于指令微调目标从头开始预训练,这与LLMs的下游应用场景(回应用户提示)具有更高的分布一致性。我们进行了严格的逐词元训练对照实验,发现在衡量自由形式回应质量的标准基准测试中,基于FineInstructions的预训练效果优于标准预训练及其他已提出的合成预训练技术。相关资源详见https://huggingface.co/fineinstructions。
超连接(HC)在神经网络中的成功也凸显了其训练不稳定性和可扩展性受限的问题。流形约束超连接(mHC)通过将残差连接空间投影到Birkhoff多胞体上来缓解这些挑战,但仍面临两个问题:1)其迭代式Sinkhorn-Knopp(SK)算法并不总能产生精确的双随机残差矩阵;2)mHC的参数复杂度高达难以承受的O(n³C),其中n为残差流宽度,C为特征维度。近期提出的mHC-lite通过Birkhoff-von-Neumann定理对残差矩阵进行重参数化以保证双随机性,但其参数复杂度也面临阶乘级爆炸问题,达到O(nC·n!)。为解决这两大挑战,我们提出KromHC方法,通过小型双随机矩阵的Kronecker积来参数化mHC中的残差矩阵。通过沿张量化残差流的每个模态对因子残差矩阵实施流形约束,KromHC在保证残差矩阵精确双随机性的同时,将参数复杂度降至O(n²C)。综合实验表明,KromHC在显著减少可训练参数的同时,达到甚至超越了当前最先进的mHC变体性能。代码已开源:https://github.com/wz1119/KromHC。
尽管机械可解释性研究已在大型语言模型中发现可解释电路,但其在训练数据中的因果起源仍不明确。我们提出机械数据归因(MDA)框架,该可扩展方法利用影响函数将可解释单元溯源至特定训练样本。通过对Pythia模型系列的广泛实验,我们因果验证了目标干预——移除或增强少量高影响力样本——能显著调控可解释注意力头的形成,而随机干预则无此效果。分析表明,重复性结构化数据(如LaTeX、XML)发挥着机械催化剂作用。此外,针对归纳头形成的干预会引发模型上下文学习能力的同步变化,这为"归纳头与上下文学习存在功能关联"的长期假设提供了直接因果证据。最后,我们提出一种机械数据增强流程,能在不同模型规模下持续加速电路收敛,为引导大语言模型发展轨迹提供了原理性方法。
基于语言模型的智能体在长程交互中持续面临两大挑战:如何保持时序关联信息的完整性,以及如何维持跨会话的行为一致性——我们将这种失效模式称为"灵魂侵蚀"。本文提出BMAM(类脑多智能体记忆架构),该通用记忆架构将智能体记忆建模为功能专精的子系统集合,而非单一非结构化存储。受认知记忆系统启发,BMAM将记忆解构为情景记忆、语义记忆、显著性感知与控制导向四大组件,各组件在互补的时间尺度上运作。为支持长程推理,BMAM沿显性时间轴组织情景记忆,并通过融合多重互补信号进行证据检索。在LoCoMo基准测试中,BMAM在标准长程评估设定下达到78.45%的准确率,消融实验证实受海马体启发的的情景记忆子系统对时序推理具有关键作用。
量化技术已显著提升大型语言模型(LLM)训练的计算与内存效率。然而现有方法仍需依赖高精度累积更新:具体而言,梯度更新必须应用于高精度权重缓冲区(即主权重)。该缓冲区会带来显著的内存开销,尤其在稀疏专家混合模型(SMoE)中,模型参数和优化器状态占据了内存使用的主导地位。为此,我们提出误差补偿优化器(ECO),通过直接将更新应用于量化参数来消除主权重。ECO在每步训练后对权重进行量化,并将产生的量化误差精准注入优化器动量中,形成无需额外内存的误差反馈循环。我们证明,在标准假设和衰减学习率条件下,ECO能收敛至最优解邻域,而简单移除主权重可能产生与学习率成反比的误差。我们通过FP8量化预训练小型Transformer模型(30-800M)、Gemma-3 1B模型及21亿参数稀疏MoE模型,以及INT4精度微调DeepSeek-MoE-16B的实验表明:ECO在保持近乎无损精度的前提下,始终匹配使用主权重的基线方法,显著改善了静态内存与验证损失的帕累托边界。
尺度化推动了视觉基础模型的最新进展,但将该范式扩展到度量深度估计仍面临挑战,这源于异构传感器噪声、相机相关偏差以及跨源3D数据中的度量模糊性。我们提出Metric Anything,一种简单可扩展的预训练框架,能够从嘈杂多样的3D数据源学习度量深度,无需人工设计的提示、相机特定建模或任务特定架构。我们方法的核心是稀疏度量提示——通过随机掩码深度图生成,作为通用接口将空间推理与传感器和相机偏差解耦。利用涵盖10000种相机型号的重建、采集和渲染三维数据约2000万张图像-深度对,我们首次在度量深度领域证明了清晰的尺度化趋势。该预训练模型在深度补全、超分辨率和雷达-相机融合等提示驱动任务中表现卓越,其蒸馏出的无提示学生模型则在单目深度估计、相机内参恢复、单/多视角度量三维重建和VLA规划方面达到顶尖水平。我们还证明,使用Metric Anything的预训练ViT作为视觉编码器,能显著提升多模态大语言模型的空间智能能力。这些结果表明,度量深度估计同样受益于驱动现代基础模型的尺度定律,为可扩展的高效现实世界度量感知开辟了新路径。我们在http://metric-anything.github.io/metric-anything-io/开源Metric Anything以支持社区研究。
统一多模态模型(UMMs)将视觉理解与生成功能整合于单一框架内,其终极目标是构建理解与生成相互强化的循环体系。尽管近期后训练方法已成功利用理解能力提升生成质量,但利用生成能力增强理解的反向路径仍鲜有探索。本文提出UniMRG(统一多表征生成),一种简洁且与架构无关的后训练方法。该方法通过引入辅助生成任务来增强UMMs的理解能力:在标准视觉理解目标基础上,训练模型同步生成输入图像的多类内在表征——包括像素级(重建)、深度(几何)及分割(结构)信息。通过综合这些多样化表征,UMMs能够捕捉关于外观特征、空间关系和结构布局的互补信息,从而形成对视觉输入更深入全面的理解。跨多种UMM架构的大规模实验表明,本方法显著提升了细粒度感知能力,减少幻觉现象,增强空间理解,同时同步强化了生成性能。
我们提出FROST——一种基于注意力感知的高效推理方法。与传统方法不同,FROST通过利用注意力权重来剪枝非关键推理路径,从而生成更简短且更可靠的推理轨迹。在方法论上,我们引入推理异常值的概念,并设计了一种基于注意力的机制来消除这些异常值。从理论层面看,FROST在保持并增强模型推理能力的同时,实现了句子层级的异常值剔除。实证方面,我们在四个基准测试中使用两种强推理模型(Phi-4-Reasoning和GPT-OSS-20B)验证FROST,其表现优于TALE、ThinkLess等最先进方法。值得注意的是,FROST相较基础模型平均实现了69.68%的token使用量降低和26.70%的准确率提升。此外在注意力异常值指标评估中,FROST将最大无穷范数降低15.97%,平均峰度减少91.09%。代码已开源:https://github.com/robinzixuan/FROST
音视频基础模型通过预训练实现声音与视觉内容的联合生成,近期展现出前所未有的多模态生成与编辑能力,为下游任务开辟了新机遇。在视频配音任务中,此类先验知识可发挥重要作用,但现有解决方案仍依赖复杂且针对特定任务的流程,难以应对实际场景的挑战。本研究提出一种单模型解决方案,通过轻量级LoRA适配基础音视频扩散模型,实现视频到视频的配音功能。该LoRA模块使模型能够以输入音视频为条件,同步生成翻译后的音频与协调的面部动作。为训练此LoRA模块,我们利用生成模型本身合成同一发言者的多语言配对视频:首先生成包含单镜头内语言切换的多语言视频,随后对每个半区进行面部与音频修复以匹配另半区的语言。通过发挥音视频模型丰富的生成先验优势,我们的方法在保持说话者身份特征与唇形同步的同时,对复杂动作和真实场景动态具有强鲁棒性。实验表明,相较于现有配音流程,本方法能生成视觉保真度更高、唇形同步更精准且鲁棒性更强的优质配音视频。
目前大多数用于训练大型语言模型(LLM)的强化学习方法都需要真实标签或特定任务的验证器,这在正确性难以判定或获取成本高昂时限制了方法的可扩展性。我们提出基于元评估的强化学习(RLME)方法,该方法通过评估者对自然语言元问题(如“答案是否正确?”或“推理是否逻辑一致?”)的反馈生成奖励信号来优化生成器。RLME将评估者给出积极判断的概率作为奖励,并通过组相对策略优化更新生成器,从而实现无标签学习。一系列实验表明:RLME在准确性和样本效率上可与基于标签的训练相媲美;支持多目标间的可控权衡;引导模型形成可靠推理模式而非事后合理化;在缺乏真实标签的开放域场景中仍具泛化能力,从而拓展了强化学习在LLM训练中的应用领域。
近年來,程式碼生成領域的強化學習進展使得穩健環境對於防範獎勵破解變得至關重要。隨著大型語言模型日益充當程式碼強化學習中的評估者,其檢測獎勵破解的能力仍缺乏深入研究。本文提出一個涵蓋54個類別的新型獎勵漏洞分類法,並推出TRACE(程式碼環境中的獎勵異常測試)——一個包含517條測試軌跡、經人工驗證的合成基準數據集。有別於以往在孤立分類情境下評估獎勵破解檢測的研究,我們通過TRACE數據集對比了更貼近現實的對比式異常檢測框架。實驗結果表明,模型在對比情境下的獎勵破解檢測效果顯著優於孤立分類情境:GPT-5.2在最高推理模式下檢測率達63%,較孤立情境的45%實現大幅提升。基於此發現,我們證實頂尖模型對語義情境化獎勵破解的處理能力遠遜於對語法情境化破解的處理。我們進一步開展了模型行為的定性分析,並通過消融實驗證明良性軌跡與破解軌跡的比例及分析聚類規模會顯著影響檢測性能。現公開釋出基準數據集與評估框架,以助力學界擴展TRACE並評估相關模型。
数学中极值结构的发现需要探索广阔且非凸的复杂空间,其中解析方法难以提供指导,而暴力搜索又往往不可行。我们提出FlowBoost——一种闭环生成式框架,通过整合三个核心组件来学习发现稀有极值几何结构:(一)几何感知的条件流匹配模型,可学习采样高质量构型;(二)结合行动探索的奖励引导策略优化,在保持多样性的同时直接优化生成过程以趋近目标;(三)用于训练数据生成与最终优化的随机局部搜索。相较于PatternBoost等基于过滤离散样本重训练的开环方法,或依赖冻结大语言模型作为进化变异算子的AlphaEvolve,FlowBoost在采样阶段强制保证几何可行性,并将奖励信号直接反馈至生成模型,从而形成优化闭环。该方法仅需更小的训练集、更短的训练时间,并将外层循环迭代次数降低数个量级,同时消除对大语言模型的依赖。我们在四个几何优化问题上验证了该框架:超立方体中的球体填充、半径和最大化的圆盘填充、Heilbronn三角形问题及星形差异最小化。在多个案例中,FlowBoost发现的构型达到或超越了已知最优结果。对于圆盘填充问题,我们改进了已知下界,在显著减少计算资源消耗的同时超越了基于大语言模型的AlphaEvolve系统。
音訊指紋技術能為聲學信號生成可識別表徵,後續可用於身份識別與檢索系統。為獲取具區分度的表徵,輸入音訊通常會被分割為較短時長區間,以便提取並分析局部聲學特徵。現代神經網路方法通常處理短時固定長度音訊片段,但片段時長的選擇往往基於經驗法則,鮮少深入探討。本文研究片段長度對音訊指紋效能的影響,擴展現有神經指紋架構以適應不同時長片段,並評估不同片段長度與查詢時長下的檢索準確率。結果表明,短時長片段(0.5秒)通常能實現更佳效能。此外,我們評估了大型語言模型在推薦最佳片段長度方面的能力,發現GPT-5-mini在三種測試模型中以五項評估維度持續給出最佳建議。本研究為大規模神經音訊檢索系統中片段時長的選擇提供了實用指引。
平面設計常需探索不同的風格方向,這對非專業人士而言相當耗時。我們針對基於自然語言指令實現風格化設計提升的難題提出解決方案。儘管視覺語言模型在平面設計領域已取得初步成果,但其預訓練的風格知識往往過於泛化,與特定領域數據存在偏差。例如,視覺語言模型可能將極簡主義與抽象設計關聯,而設計師更注重造型與色彩的選擇。我們的核心思路是藉助設計數據——即隱含設計師準則的真實設計案例集合——來學習設計知識並指導風格優化。本文提出PRISM(先驗信息驅動的風格化修改)框架,通過三階段構建並應用設計知識庫:(1)對高方差設計進行聚類以捕捉風格內部的多樣性;(2)將每個聚類總結為可操作的設計知識;(3)在推理階段檢索相關知識以實現風格感知的設計優化。在Crello數據集上的實驗表明,PRISM在風格對齊任務中以1.49的平均排名(越接近1越優)超越基準方法。用戶研究進一步驗證了這些結果,顯示設計師對PRISM的輸出成果有持續性偏好。
网络智能体在自动化复杂计算机任务方面潜力巨大,但其交互过程涉及具有不可逆操作的长期序贯决策。在此类场景中,基于结果的监督信号既稀疏又延迟,往往会对错误轨迹给予奖励,且无法支持推理阶段的扩展。这促使研究者将过程奖励模型(WebPRMs)应用于网络导航任务,但现有方法仍存在局限:标量型WebPRMs将进展压缩为粗糙且弱关联的信号,而清单式WebPRMs依赖脆弱的模板匹配机制,在界面布局或语义变化时容易失效,常将表面正确的操作误判为成功,缺乏洞察力与可解释性。为应对这些挑战,我们提出WebArbiter——一种推理优先、原则导向的WebPRM框架,将奖励建模转化为文本生成任务,通过生成结构化论证来得出结论性判断,并识别当前情境下最有利于任务完成的操作。训练采用两阶段流程:推理蒸馏阶段赋予模型连贯的原则指导推理能力,强化学习阶段则通过直接对齐判断结果与正确性来修正教师模型偏差,从而实现更强泛化能力。为支持系统化评估,我们发布WebPRMBench基准测试集,涵盖四个多样化网络环境,包含丰富任务场景及高质量偏好标注。在WebPRMBench上,WebArbiter-7B以9.1分优势超越最强基线GPT-5;在WebArena-Lite的奖励引导轨迹搜索中,其表现较现有最佳WebPRM提升达7.2分,彰显了其在真实复杂网络任务中的鲁棒性与实用价值。
视觉基础模型为机器人技术提供了强大的感知特征,但其稠密表征缺乏显式的物体级结构,限制了操作任务中的鲁棒性和可收缩性。我们提出STORM(基于槽位的任务感知物体中心表征),这是一种轻量级物体中心适配模块,通过为冻结的视觉基础模型添加少量语义感知槽位来增强机器人操作能力。与重新训练大型骨干网络不同,STORM采用多阶段训练策略:首先通过使用语言嵌入的视觉-语义预训练来稳定物体中心槽位,然后与下游操作策略联合适配。这种分阶段学习能防止槽位退化形成,在将感知与任务目标对齐的同时保持语义一致性。在物体发现基准测试和模拟操作任务上的实验表明,相较于直接使用冻结基础模型特征或端到端训练物体中心表征,STORM能显著提升对视觉干扰物的泛化能力和控制性能。我们的研究结果凸显了多阶段适配作为一种高效机制,可将通用基础模型特征转化为适用于机器人控制的任务感知型物体中心表征。
机器人操作策略的泛化能力深受视觉表示选择的影响。现有方法通常依赖预训练编码器提取的表示,主要使用两类特征:全局特征(通过单一池化向量概括整幅图像)和密集特征(保留最终编码器层的分块嵌入)。尽管应用广泛,这两种特征类型都会混合任务相关与无关信息,导致在光照、纹理变化或干扰物出现等分布偏移下泛化能力不足。本研究探索了一种中间层级的结构化替代方案:基于槽位的物体中心表示(SBOCR),该方法将密集特征分组为有限个类物体实体。这种表示能自然减少输入机器人操作策略的噪声,同时保留足够信息以高效执行任务。我们在从简单到复杂的模拟及现实世界操作任务套件中,对多种全局/密集表示与中间层级的槽位表示进行了基准测试,评估了它们在光照、纹理变化及干扰物存在等不同视觉条件下的泛化表现。研究发现,即使没有任务特定预训练,基于SBOCR的策略在泛化场景中仍优于基于密集和全局表示的策略。这些发现表明,SBOCR为设计能在动态现实机器人环境中有效泛化的视觉系统提供了有前景的研究方向。
近期,生成式基础模型(常被称为"世界模型")的技术突破激发了将其应用于机器人规划、自主系统训练等关键任务的兴趣。为确保可靠部署,这些模型需具备高物理保真度,能精准模拟现实世界动态。然而,现有基于物理的视频基准测试存在概念纠缠问题——单个测试同时评估多重物理定律与概念,这从根本上限制了其诊断能力。我们推出WorldBench这一新型视频基准测试,专门针对特定概念进行解耦评估,可严格分离并逐一检验对单一物理概念或定律的理解。为构建全面评估体系,我们设计了两个层级的测试:1)评估直觉物理认知(如物体恒存性、尺度/透视关系);2)评估底层物理常数与材料属性(如摩擦系数、流体粘度)。通过对当前最先进的视频世界模型进行WorldBench测试,我们发现所有被测模型均存在特定物理概念的理解缺陷,缺乏生成可靠真实世界交互所需的物理一致性。WorldBench通过概念特异性评估,为视频生成与世界模型的物理推理能力提供了更精细、可扩展的严谨评估框架,为开发更稳健、可泛化的世界模型驱动学习开辟了新路径。