每日精選AI研究論文及翻譯
金融市場具有高噪聲與非平穩特性,使得阿爾法因子挖掘對回測結果中的噪聲及市場狀態突變極度敏感。儘管近期出現的智能體框架提升了阿爾法挖掘的自動化程度,但其往往缺乏可控的多輪次搜索機制與驗證經驗的可靠複用。為應對這些挑戰,我們提出QuantaAlpha——一種將每次端到端挖掘過程視為軌跡的演化式阿爾法挖掘框架,通過軌跡層級的變異與交叉操作優化因子。該框架能定位軌跡中的次優步驟進行靶向修正,並重組互補的高收益片段以複用有效模式,實現結構化的迭代探索與精煉。在因子生成過程中,QuantaAlpha確保假設、因子表達式與可執行代碼間的語義一致性,同時約束生成因子的複雜度與冗餘性以緩解擁擠效應。基於滬深300指數的廣泛實驗表明,該框架相較強基線模型與現有智能體系統均取得穩定增益。使用GPT-5.2時,QuantaAlpha的信息係數(IC)達0.1501,年化收益率(ARR)為27.75%,最大回撤(MDD)僅7.98%。此外,在滬深300上挖掘的因子可有效遷移至中證500指數與標普500指數,四年累計超額收益分別達160%與137%,展現出QuantaAlpha在市場分佈變化下的強健性。
隨著後訓練優化成為改進大型語言模型的關鍵手段,我們觀察到一個持續存在的飽和瓶頸:當模型達到高度置信後,進一步訓練產生的效益會遞減。儘管現有方法持續強化目標預測,我們發現具信息量的監督信號仍潛藏於模型自身的歷史弱狀態中。基於此觀察,我們提出WMSS(弱智能體可使強智能體更強)這一後訓練範式,利用弱檢查點來引導持續優化。通過熵動態識別可恢復的學習差距,並藉由補償性學習進行強化,WMSS能讓強智能體突破傳統後訓練的飽和限制。在數學推理與程式碼生成數據集上的實驗表明,採用本方法訓練的智能體可實現有效的性能提升,且無需增加任何推論成本。
音訊在現實世界影片中不可或缺,然而生成模型長期以來大多忽略了音訊元件。當前製作視聽內容的方法通常依賴級聯式流程,這不僅增加成本、導致誤差累積,更會降低整體品質。儘管Veo 3和Sora 2等系統強調同步生成的價值,但聯合多模態建模在架構、數據和訓練方面仍存在獨特挑戰。此外,現有系統的閉源特性限制了該領域的發展。本研究推出開源模型MOVA(MOSS視聽生成模型),能生成高品質同步視聽內容,包括逼真的唇語同步語音、環境感知音效與內容契合的配樂。MOVA採用混合專家架構,總參數量達320億,其中推理時激活180億參數,支援「圖文生成視聽」任務。透過公開模型權重與程式碼,我們期望推動研究發展並培育創意社群。開源程式庫具備完整功能,支援高效推理、LoRA微調及提示詞增強。
儘管多模態對比學習在對齊視覺與語言表徵方面取得了成功,但一個持續存在的幾何異常現象——模態鴻溝——仍然存在:表達相同語義的不同模態嵌入會系統性地佔據偏移區域。先前彌合這一鴻溝的方法大多受制於過度簡化的各向同性假設,阻礙了其在大規模場景中的應用。本文通過精確刻畫模態鴻溝的幾何形態並利用其實現高效模型擴展,來解決這些局限性。首先,我們提出固定框架模態鴻溝理論,將凍結參考系內的模態鴻溝分解為穩定偏差與各向異性殘差。在這一精確建模的指導下,我們引入ReAlign——一種免訓練的模態對齊策略。該方法利用海量非配對數據的統計特徵,通過錨點對齊、軌跡對齊和質心對齊的三步流程,將文本表徵對齊至圖像表徵分佈中,從而顯式修正幾何失準問題。基於ReAlign,我們進一步提出ReVision——一種適用於多模態大語言模型的可擴展訓練範式。ReVision將ReAlign整合至預訓練階段,使模型能在視覺指令微調前從非配對文本中學習視覺表徵分佈,無需依賴大規模高質量圖文配對數據。我們的框架證明,經過統計對齊的非配對數據可有效替代昂貴的圖文配對數據,為多模態大語言模型的高效擴展提供了可靠路徑。
當前視覺-語言-動作模型依賴固定計算深度,對簡單調整與複雜多步驟操作均消耗相同計算量。儘管思維鏈提示支持可變計算,但其記憶體需求呈線性增長,且難以適用於連續動作空間。我們提出循環深度VLA架構,通過潛在迭代優化而非顯式標記生成來實現計算自適應性。該模型採用權重共享的循環動作頭,在恆定記憶體佔用下支持任意推理深度。通過時間截斷反向傳播訓練,可有效監督優化過程。推理時,RD-VLA基於潛在狀態收斂的自適應停止準則動態分配計算量。在複雜操作任務上的實驗表明:單次迭代完全失敗的任務經過四次迭代成功率超過90%,而簡單任務則快速飽和。RD-VLA為機器人測試時計算提供了可擴展路徑,以潛在推理替代基於標記的推理,實現恆定記憶體使用量,並較先前基於推理的VLA模型最高提升80倍推理速度。項目頁面:https://rd-vla.github.io/
大型語言模型代理在推動科學研究方面具有重要前景。為加速這一進程,我們推出AIRS-Bench(人工智慧科研基準測試),該套件包含從頂尖機器學習論文中精選的20項任務。這些任務涵蓋語言建模、數學、生物資訊學與時間序列預測等多個領域。AIRS-Bench任務旨在評估代理在完整科研生命周期中的能力——包括創意生成、實驗分析與迭代優化——且不提供基礎程式碼。AIRS-Bench的任務格式具備高度靈活性,可輕鬆整合新任務並實現不同代理框架間的嚴謹比較。我們採用前沿模型搭配順序式與並行式架構建立了基準測試。結果顯示,代理在四項任務中超越人類最先進水平,但在其餘十六項任務中未能達標。即使代理超越人類基準,也未能觸及底層任務的理論性能上限。這些發現表明AIRS-Bench遠未達飽和狀態,存在巨大改進空間。我們開源了AIRS-Bench任務定義與評估程式碼,以促進自主科學研究的進一步發展。
我们推出InternAgent-1.5——一个专为计算与实验双领域端到端科学发现设计的统一系统。该系统采用由生成、验证与演进三个协同子系统构成的架构,这些子系统由深度研究、方案优化和长周期记忆等基础能力支撑。该架构使InternAgent-1.5能在长周期发现流程中持续运行,同时保持行为连贯性并实现自我提升,还能在统一系统内协调计算建模与实验室实验。我们在GAIA、HLE、GPQA和FrontierScience等科学推理基准测试中评估该系统,其领先表现展现了强大的基础能力。除基准测试外,我们进一步评估了两类发现任务:在算法发现任务中,系统能自主设计针对核心机器学习问题的竞争性方法;在实验发现任务中,它能执行完整的计算或湿实验流程,在地球科学、生命科学、生物领域和物理领域产出科学发现。总体而言,这些结果表明InternAgent-1.5为自主科学发现提供了通用且可扩展的框架。
雖然LLaDA2.0展現了百億級塊擴散模型的擴展潛力及其內在並行化優勢,解碼速度與生成品質間的微妙平衡始終是難以突破的邊界。今日我們推出顛覆性的LLaDA2.1,透過將Token-to-Token(T2T)編輯無縫編織至傳統Mask-to-Token(M2T)架構中,開創可配置的聯合閾值解碼機制。此結構性革新催生兩種運作模式:迅捷模式(S模式)大膽降低M2T閾值以突破傳統限制,同時依賴T2T進行輸出優化;品質模式(Q模式)則採用保守閾值,在可控效率損耗下確保卓越的基準表現。更進一步,基於擴展上下文視窗,我們首度實現專為擴散大語言模型設計的大規模強化學習框架,並以穩定梯度估計技術為錨點。此對齊機制不僅銳化推理精度,更提升指令遵循的忠實度,彌合擴散動力學與複雜人類意圖間的鴻溝。作為成果結晶,我們同步發布LLaDA2.1-Mini(160億參數)與LLaDA2.1-Flash(1000億參數)。在33項嚴苛基準測試中,LLaDA2.1展現強勁任務性能與閃電級解碼速度——即便作為千億級模型,其在HumanEval+編程任務達成892 TPS,BigCodeBench達801 TPS,LiveCodeBench更創下663 TPS的驚人表現。
在物理世界中直接進行線上策略學習是具身智慧一個前景廣闊但充滿挑戰的方向。與模擬環境不同,現實世界系統無法任意加速、低成本重置或大規模複製,這使得可擴展的數據收集、異構部署和長時程有效訓練變得困難。這些挑戰表明現實世界的策略學習不僅是算法問題,更本質上是系統工程問題。我們提出USER——一個面向現實世界線上策略學習的統一可擴展系統。USER通過統一的硬體抽象層將實體機器人視作與GPU並列的一等硬體資源,實現異構機器人的自動發現、管理與調度。為解決雲邊通信問題,USER引入具備隧道化網絡的自適應通信平面,通過分佈式數據通道實現流量本地化,並採用流式多處理器感知的權重同步機制來調控GPU端開銷。在此基礎設施之上,USER將學習組織為具備持久化緩存感知緩衝區的全異步框架,支持具有強健崩潰恢復能力和歷史數據復用機制的長時程實驗。此外,USER為獎勵函數、算法和策略提供可擴展抽象,在統一流水線中支持CNN/MLP、生成式策略及大型視覺-語言-動作模型的線上模仿學習或強化學習。模擬與現實場景實驗表明,USER可實現多機器人協同、異構機械臂協作、大模型驅動的邊雲協同以及長時異步訓練,為現實世界線上策略學習提供了統一可擴展的系統基礎。
人工智能与材料科学的交汇带来了变革性机遇,但实现真正的发现加速需要超越任务孤立的微调模型,转向能在完整发现循环中规划、行动和学习的智能体系统。本文提出独特的流程中心视角,涵盖从语料库构建与预训练、领域自适应与指令微调,到连接仿真与实验平台的目标条件智能体的全过程。与既往综述不同,我们将整个流程视为端到端系统,以切实发现成果而非代理指标作为优化目标。这一视角使我们能追溯上游设计选择(如数据策展和训练目标)如何通过有效的功劳分配与下游实验成功相衔接。 为搭建跨学科桥梁并建立共同参照系,我们首先提出整合框架,统一人工智能与材料科学的术语体系、评估标准和工作流阶段。随后通过双重视角解析该领域:从人工智能视角,详述大语言模型在模式识别、预测分析和自然语言处理方面的优势,及其在文献挖掘、材料表征和性能预测中的应用;从材料科学视角,重点探讨在材料设计、工艺优化领域,以及通过与外部工具(如密度泛函理论、机器人实验室)集成加速计算工作流的实践。最后,我们对比被动反应式方法与智能体设计,在梳理现有成果的同时,倡导构建具备自主性、记忆能力和工具使用能力、能追求长期目标的系统。本综述为开发旨在发现新型实用材料的自主化、安全可控的大语言模型智能体绘制了实用路线图。
在流匹配模型上部署GRPO已被證實能有效提升文字生成影像的效能。然而現有範式通常將基於結果的獎勵傳播至所有前置去噪步驟,卻未區分每個步驟的局部影響。此外,當前群組排序方法主要對比匹配時間步上的軌跡,忽略了軌跡內部的依賴關係——某些早期去噪動作可能透過延遲的隱性互動影響後續狀態。我們提出TurningPoint-GRPO(TP-GRPO),此GRPO框架能緩解逐步獎勵稀疏性,並顯式建模去噪軌跡中的長期效應。TP-GRPO具備兩大關鍵創新:(i)以步驟級增量獎勵取代結果導向獎勵,提供密集且具步驟感知的學習信號,更好隔離每個去噪動作的「純粹」效應;(ii)識別轉折點——即翻轉局部獎勵趨勢並使後續獎勵演變與整體軌跡趨勢一致的步驟——並為這些動作分配聚合長期獎勵以捕捉其延遲影響。轉折點僅透過增量獎勵的符號變化檢測,使TP-GRPO兼具高效與超參數自由特性。大量實驗也證明TP-GRPO能更有效利用獎勵信號,持續提升生成品質。演示程式碼請見:https://github.com/YunzeTong/TurningPoint-GRPO。
近期圖像生成模型的進展已能根據用戶指令預測未來圖形用戶界面(GUI)狀態。然而,現有基準主要關注通用領域的視覺保真度,對GUI特定場景中的狀態轉換與時間連貫性評估仍顯不足。為填補此空白,我們提出GEBench——一個用於評估GUI生成中動態交互與時間連貫性的綜合基準。該基準包含700個精心篩選的樣本,涵蓋五類任務範疇,涉及真實與虛構場景中的單步交互與多步軌跡,以及定位點標註。為支持系統化評估,我們提出GE-Score新型五維度量標準,從目標達成度、交互邏輯性、內容一致性、界面合理性及視覺品質五個維度進行評測。對現有模型的廣泛評估表明:雖然模型在單步轉換表現良好,但在長交互序列中維持時間連貫性與空間定位方面存在明顯不足。我們發現圖標解讀、文本渲染與定位精度是當前關鍵瓶頸。本研究為系統化評估奠定基礎,並為構建高保真生成式GUI環境的未來研究方向提供啟示。程式碼已開源於:https://github.com/stepfun-ai/GEBench。
解決開放式科學問題對大型語言模型而言仍具挑戰性,主要源於其內在不可靠的監督與評估機制。瓶頸在於科學領域後訓練的數據構建與獎勵設計。我們開發了一套大規模系統化數據處理流程,將異構開源科學數據轉化為Dr. SCI數據集——該數據集涵蓋八個STEM學科的100萬道題目,具有明確的可驗證/開放式分類、可擴展的難度標註,以及可操作化評估開放式答案的細粒度評分標準。基於此數據集,我們提出Dr. SCI後訓練流程,通過三個組件重構標準的SFT→RL工作流:(1)探索擴展式SFT,在強化學習前拓寬模型的推理模式覆蓋範圍;(2)動態難度課程學習,根據模型演進的科學能力自適應調整訓練數據;(3)科學評分標準引導的RL,通過基於明確答案正確性的評分標準評估,實現開放式科學問題的穩定強化學習。採用Dr. SCI流程訓練的Qwen3-4B-Base模型在GPQA-diamond和GPQA-general上分別達到63.2分和32.4分,持續超越o1-mini、GPT-4o等強力後訓練基線模型,尤其在開放式場景下的科學推理能力實現顯著提升。
尽管当前多模态大语言模型(MLLMs)的视频理解能力日益增强,但现有视频基准主要基于模型静态的内部知识进行评估,而非考察其从少量动态新颖情境中学习适应的能力。为弥补这一差距,我们提出演示驱动视频上下文学习这一新型任务,重点研究如何通过上下文演示样例来回答目标视频相关问题。同时,我们推出Demo-ICL-Bench基准测试,该挑战性基准专门用于评估演示驱动的视频上下文学习能力。该基准基于1200个含关联问题的YouTube教学视频构建,从中衍生出两类演示样本:(i)基于视频字幕摘要的文本演示;(ii)对应教学视频本身的视频演示。为应对这一新挑战,我们开发了Demo-ICL模型,采用两阶段训练策略:视频监督微调与信息辅助直接偏好优化,共同增强模型从上下文示例中学习的能力。通过对前沿MLLMs的广泛实验,不仅验证了Demo-ICL-Bench的挑战性,也证明了Demo-ICL模型的有效性,从而揭示了未来研究方向。
随着大型语言模型(LLM)智能体的运作范围逐渐超越单一上下文窗口,记忆功能日益成为核心要素。然而现有系统多采用离线且与查询无关的记忆构建方式,这种方式不仅效率低下,还可能丢失查询关键信息。尽管运行时记忆调用是自然替代方案,但既有方案往往产生显著开销,且对性能与成本的权衡缺乏显式控制。本研究提出BudgetMem——一种支持显式、查询感知型性能成本控制的运行时智能体记忆框架。该框架将记忆处理构建为若干记忆模块,每个模块提供低/中/高三种预算层级。通过轻量级路由器执行跨模块的预算层级路由,在任务性能与记忆构建成本间实现平衡,这一机制通过强化学习训练的紧凑神经策略实现。借助BudgetMem这一统一测试平台,我们研究了实现预算层级的三种互补策略:实现方式(方法复杂度)、推理机制(推断行为)和容量配置(模块模型规模)。在LoCoMo、LongMemEval和HotpotQA数据集上的实验表明,BudgetMem在优先考虑性能(即高预算设置)时超越强基线模型,在严格预算限制下能提供更优的精度-成本边界。此外,我们的分析揭示了不同层级策略的优劣特性,明确了在不同预算模式下各维度何时能实现最佳权衡效果。
大型语言模型(LLMs)执行长期真实任务的能力日益增强。然而随着上下文量的增加,其可靠性往往会出现下降,这一现象被称为"上下文腐化"。现有的长上下文基准测试主要聚焦于单步场景,仅评估模型从长文本片段中检索信息的能力。但在实际应用中,LLMs通常需要作为智能体来探索环境、遵循指令与计划、提取有效信息,并在动态增长的上下文中预测正确行动。为评估语言智能体在此类场景中的表现,我们推出LOCA-bench(长上下文智能体基准测试框架)。给定任务提示后,LOCA-bench通过自动化可扩展的环境状态控制来调节智能体的上下文长度。该设计使得LOCA-bench能在保持底层任务语义固定的前提下,以可控方式将上下文长度无限延伸。LOCA-bench将语言智能体视为模型与框架的组合体进行评估,涵盖多种上下文管理策略。实验表明,虽然智能体性能会随环境状态复杂度增加而普遍下降,但先进的上下文管理技术能显著提升整体成功率。我们开源LOCA-bench以提供长上下文智能场景下的模型与框架评估平台:https://github.com/hkust-nlp/LOCA-bench
大型语言模型(LLM)的进步显著加速了能够通过多轮网络交互自主收集信息的搜索智能体发展。目前已有多种基准被提出用于评估此类智能体,但现有基准往往通过从答案反向构建查询的方式,产生与真实需求不符的非自然任务。此外,这些基准通常侧重于定位特定信息或聚合多源信息,同时依赖易受数据污染影响的静态答案集。为弥补这些不足,我们推出GISA基准——一个面向通用信息检索助手、包含373个人工精心设计的真实信息检索场景的评估体系。GISA具有四种结构化答案格式(项目、集合、列表和表格),支持确定性评估。该基准在统一任务中深度融合深度推理与广泛信息聚合,并包含定期更新答案的动态子集以抵抗记忆效应。值得注意的是,GISA为每个查询提供完整的人类搜索轨迹,为过程级监督和模仿学习提供黄金标准参考。对主流LLM及商业搜索产品的实验表明,即使表现最佳的模型也仅达到19.30%的精确匹配度,且在需要复杂规划和全面信息收集的任务中性能显著下降。这些发现揭示了未来改进的巨大空间。
執行複雜終端任務對於開源權重的大型語言模型而言仍是重大挑戰,主要受限於兩項根本限制。首先,高擬真度的可執行訓練環境極為稀缺:從真實世界代碼庫合成的環境缺乏多樣性與擴展性,而由大型語言模型生成的執行軌跡則存在幻覺問題。其次,標準指令微調使用的專家軌跡極少呈現小型模型常見的簡單錯誤,這種分佈不匹配導致學生模型難以從自身運行時錯誤中恢復。為解決這些問題,我們提出TermiGen——一個能合成可驗證環境與韌性專家軌跡的端到端流程。TermiGen首先通過迭代式多智能體優化循環生成功能有效的任務與Docker容器,隨後採用生成器-評判器協議,在軌跡收集過程中主動注入錯誤,從而合成富含錯誤修正循環的數據集。基於TermiGen數據集微調的TermiGen-Qwen2.5-Coder-32B模型在TerminalBench上達到31.3%的通過率,創下開源權重模型的新標竿,不僅超越現有基線模型,更顯著勝過o4-mini等專有模型。數據集已開源於:https://github.com/ucsb-mlsec/terminal-bench-env。
生成深度研究报告需要大规模信息获取与洞察驱动的分析综合,这对当前语言模型构成重大挑战。现有方法大多遵循"先规划后撰写"范式,其性能高度依赖初始提纲的质量。然而,构建全面提纲本身需要强大的推理能力,导致现有深度研究系统几乎完全依赖闭源或在线大模型。这种依赖性不仅造成实际部署障碍,更对用户数据的隐私安全构成隐患。本研究提出AgentCPM-Report——一个由仿人类写作流程框架和80亿参数深度研究智能体构成的轻量级高性能本地解决方案。该框架采用写作即推理策略(WARP),使模型能在报告生成过程中动态修订提纲。在此策略下,智能体交替执行证据驱动起草与推理驱动深化,共同支持信息获取、知识精炼及提纲迭代演进。为有效赋能小模型掌握此能力,我们提出包含冷启动、原子技能强化学习和全流程强化学习的三阶段智能体训练策略。在DeepResearch Bench、DeepConsult和DeepResearch Gym上的实验表明,AgentCPM-Report在洞察力维度显著超越主流闭源系统。
空间具身智能要求智能体在部分可观测环境下通过主动行为获取信息。尽管多模态基础模型在被动感知方面表现卓越,但其主动自主探索能力仍待深入研究。我们提出"空间理论"概念,将其定义为智能体通过自主主动探索获取信息,并基于序列化局部观测构建、修正和利用空间认知的能力。我们通过构建认知地图的好奇心驱动探索基准任务进行评估,其核心创新在于空间信念探测技术——通过特定提示使模型在每一步揭示其内部空间表征。对前沿模型的评估揭示了若干关键瓶颈:首先,我们发现存在"主动-被动差距",当智能体需自主收集信息时性能显著下降;其次,模型探索效率低下,与基于程序的代理相比缺乏系统性。通过信念探测诊断发现,感知虽是初始瓶颈,但全局信念存在不稳定性,导致空间知识随时间退化。最后采用错误信念范式,我们揭示了"信念惯性"现象——智能体难以用新证据更新过时先验,该问题在文本智能体中存在,但在视觉模型中尤为严重。研究结果表明,当前基础模型在主动探索过程中难以维持连贯可修正的空间信念。
本研究提出WorldCompass——一种面向长时序交互式视频世界模型的新型强化学习后训练框架,该框架能基于交互信号使世界模型更精准、更连贯地探索虚拟世界。为有效"引导"世界模型的探索行为,我们针对自回归视频生成范式量身打造了三大核心创新:1)片段级推演策略:在单个目标片段处生成并评估多组样本,显著提升推演效率并提供细粒度奖励信号;2)互补式奖励函数:设计了同时兼顾交互跟随精度与视觉质量的奖励函数,既提供直接监督又有效抑制奖励黑客行为;3)高效强化学习算法:采用负样本感知微调策略并结合多种效率优化手段,以高效方式持续增强模型能力。在开源世界模型标杆WorldPlay上的实验表明,WorldCompass能在多种场景下显著提升交互精度与视觉保真度。
化学领域的大型语言模型(LLM)主要依赖自然语言的显式思维链(CoT)进行复杂推理。然而化学推理本质上具有连续性和结构性,强行将其压缩为离散的语言标记会导致根本性的表征失配,从而限制效率与性能。我们提出LatentChem——一种潜在推理接口,它将化学计算与文本生成解耦,使模型能在连续潜在空间中直接执行多步推理,仅对最终输出生成语言。值得注意的是,我们观察到一致的涌现行为:当仅针对任务成功率进行优化时,模型会自发内化推理过程,逐步摒弃冗长的文本推导,转向隐式的潜在空间计算。这种转变不仅是风格性的,更具计算优势。在多项化学推理基准测试中,LatentChem在ChemCoTBench上相较基于CoT的强基线实现了59.88%的非平局胜率,同时推理速度平均提升10.84倍。我们的研究结果实证表明:化学推理作为连续潜在动态的实现方式,比离散化语言轨迹更自然且更有效。
由于二次注意力机制和不断增长的键值缓存,大型语言模型的长上下文推断成本高昂,这推动了上下文压缩技术的发展。本研究聚焦于软上下文压缩方法,即将长上下文凝练为少量连续表征。现有方法通常将LLM本身重新用作可训练的压缩器,依赖逐层自注意力机制进行迭代式信息聚合。我们认为这种范式存在两大结构局限:(一)跨层的渐进式表征覆盖;(二)跨令牌的压缩容量分配不协调。我们提出ComprExIT(通过显式信息传输的上下文压缩)这一轻量级框架,将软压缩重构为基于冻结LLM隐藏状态的显式信息传输新范式。该方法使压缩过程与模型内部自注意力动态解耦:通过(一)深度维传输将多层信息选择性地传递至令牌锚点以缓解渐进覆盖问题,(二)宽度维传输通过全局优化的传输方案将锚点聚合为少量槽位,确保信息分配的协调性。在六个问答基准测试中,ComprExIT在仅引入约1%额外参数的情况下,持续优于最先进的上下文压缩方法,证明显式协调的信息传输能实现更高效稳健的长上下文压缩。
演绎、归纳与溯因作为人类逻辑思维的核心基础,是三种根本性的推理范式。尽管提升大型语言模型(LLM)的推理能力已吸引大量研究关注,但这些基础范式能在多大程度上引发泛化能力仍有待系统探索。本研究旨在揭示这三种核心范式的相互作用如何影响LLMs的推理行为。我们首先从符号化任务中收集新型推理轨迹数据集,每项任务专门针对一种基础范式以剥离具体世界知识的影响;随后探究将这些推理能力注入LLMs的有效途径。我们实验了包括简单微调、增加模型深度的复杂方法,以及将稠密模型转换为专家混合模型等多种策略。通过在完全采用自然语言表述且包含真实世界知识的现实跨领域任务上进行全面评估,结果表明我们的方法能产生强大的泛化能力,在现实任务中实现显著性能提升(最高达14.60分)。
大型推理模型(LRMs)通过生成冗长的多步推理轨迹在复杂推理任务中表现出色,但推理时的规模扩展会带来高昂的部署成本。核心挑战在于单个输出中的生成难度存在差异,而现有效率优化方法要么忽略这种生成过程中的动态变化,要么依赖具有高系统复杂度的监督式令牌级路由。我们提出RelayGen——一种无需训练、基于片段级的运行时模型切换框架,可有效利用长链推理中的难度波动特性。通过使用令牌概率边际对生成不确定性进行离线分析,我们发现粗粒度的片段级控制足以捕捉推理轨迹中的难度转换节点。RelayGen通过识别模型特定的切换信号(指示进入低难度片段的转换点),动态将后续生成任务委托给轻量化模型,同时保留大模型对高难度推理片段的处理能力。在多个推理基准测试中,RelayGen在保持大模型绝大部分准确率的同时,显著降低了推理延迟。当与推测解码技术结合时,该框架可实现最高2.2倍的端到端加速,且准确率损失不足2%,无需额外训练或学习路由组件。
纯权重量化已成为高效部署大语言模型(LLMs)的标准方法。然而,现有技术难以将模型高效压缩至二进制(1比特)级别,因为它们要么需要大量数据与算力,要么会产生额外存储开销。本研究提出NanoQuant——首个将LLMs压缩至二进制及亚1比特级别的训练后量化(PTQ)方法。该方法将量化问题构建为低秩二进制分解任务,将全精度权重压缩为低秩二进制矩阵与缩放因子。具体而言,它采用高效的交替方向乘子法(ADMM)精确初始化潜在二进制矩阵与缩放因子,再通过模块级与模型级重构过程微调初始化参数。由此,NanoQuant在低内存训练后量化领域建立了新的帕累托前沿,即使在亚1比特压缩率下仍能实现最优精度。该技术使得在消费级硬件上大规模部署成为可能:例如,在单张H100显卡上仅用13小时即可将Llama2-700亿参数模型压缩25.8倍,使700亿参数模型能在8GB显存的消费级GPU上运行。
基础模型,包括大型语言模型(LLM)、多模态大语言模型(MLLM)、图像生成模型(即文生图模型与图像编辑模型)以及视频生成模型,已成为法律、医疗、教育、金融、科学等众多领域不可或缺的核心工具。随着这些模型在现实场景中的广泛应用,确保其可靠性与责任性已成为学术界、产业界和政府部门关注的焦点。本综述系统探讨基础模型的可靠性与责任性发展路径,深入剖析偏见与公平性、安全与隐私、不确定性、可解释性及分布偏移等关键议题,同时涵盖模型幻觉等局限性问题,并对齐技术和AIGC检测等方法论。针对每个领域,我们既梳理了学界研究现状,也规划了具体的未来研究方向。此外,本文还着重探讨了这些领域之间的交叉关联,揭示其内在联系与共性挑战。我们期望通过本次综述推动基础模型向不仅强大、更具备伦理约束、可信可靠且承担社会责任的方向发展。
近日,自回归视频扩散模型取得了显著性能突破。然而受限于训练时长,模型在长序列测试时会出现训练-测试差异,导致画面质量快速退化。继针对训练时长内差异研究的Self Forcing之后,本研究聚焦训练时长外的差异问题——即有限时长的训练序列与无限时长的测试序列之间的鸿沟。鉴于无限测试可能超越任何有限训练窗口,且长视频训练计算成本高昂,我们探索无需重新训练的解决方案。通过系统分析自回归缓存维护机制,我们提出了滚动缓存机制Rolling Sink。基于仅用5秒片段训练的Self Forcing模型,Rolling Sink在测试阶段成功将自回归视频生成扩展至超长时长(如16帧/秒下生成5-30分钟视频),并保持主体一致、色彩稳定、结构连贯与运动平滑。大量实验表明,相较于当前最优基线方法,Rolling Sink在长序列生成中实现了更优的视觉保真度与时序一致性。项目页面:https://rolling-sink.github.io/
尽管多模态大语言模型(MLLMs)发展迅猛,但在正确答案依赖于场景在未知或替代视角下如何呈现时,视觉空间推理仍然不可靠。近期研究通过引入世界模型进行视觉想象以增强推理能力,但关于想象何时真正必要、多少想象量有益以及何时会产生负面影响等问题仍缺乏深入理解。实践中,无差别的想象不仅会增加计算量,还可能因引入误导性证据而导致性能下降。本文提出一种将测试时视觉想象作为可控资源用于空间推理的深度分析。我们研究了静态视觉证据何时足够、想象何时能提升推理能力,以及过度或不必要的想象如何影响准确性与效率。为支持此分析,我们设计了AVIC——一种自适应测试时框架,其世界模型会先显式推理当前视觉证据的充分性,再选择性调用并缩放视觉想象。在空间推理基准(SAT、MMSI)和具身导航基准(R2R)上的实验表明:我们的结果清晰揭示了想象具有关键作用、边际效益或负面效应的具体场景,并证明选择性控制策略能以显著更少的世界模型调用和语言标记量,达到或超越固定想象策略的效果。总体而言,我们的研究结果凸显了在测试阶段分析和控制想象对于实现高效可靠空间推理的重要性。
生成逐步操作指南是大型语言模型(LLM)的核心能力:聊天机器人常被要求提供操作指导,而分步规划对复杂任务的推理至关重要。然而,在现实任务中大规模量化和提升流程有效性仍面临挑战且研究不足。为此,我们推出How2Everything框架,通过目标条件化流程生成实现可扩展的评估与优化。该框架包含How2Mine组件,可从14个主题的98万个网页中挖掘35.1万条操作流程,并能轻松扩展至更大规模语料库。基于此我们构建了How2Bench评估集——涵盖7千个实例并在各主题间均衡分布。为可靠评分模型输出,我们开发了How2Score评估协议,利用LLM作为评判员检测生成内容是否包含阻碍目标达成的关键错误。为实现低成本可复现评估,我们将前沿模型蒸馏为80亿参数的开源模型,与人工标注者达成80.5%的一致性。How2Bench清晰揭示了模型规模与训练阶段间的扩展规律,在预训练早期即可提供有效信号。最后,以How2Score作为奖励的强化学习使三个模型在How2Bench上的性能提升超10分,且未在标准基准测试中出现系统性衰退,该增益对表面化的源文档记忆或格式合规具有稳健性。综合而言,How2Everything证明了如何利用预训练网络数据构建能力评估与规模化改进的闭环系统。
誘導推理已成為提升大型語言模型在複雜任務表現的強大技術,其通過激發模型思考實現性能改進。然而,該技術在真實用戶參與的智能體場景中的有效性尚不明確。本文針對用戶參與型LLM智能體中顯性思考的影響展開系統研究。我們在七種模型、三項基準測試和兩種思考實例化框架下進行實驗,並通過量化的響應分類分析與質化的故障傳播案例研究進行評估。與預期相反,我們發現強制性思考在用戶參與場景中往往對智能體產生負面影響,導致各類LLM出現異常性能衰退。關鍵發現表明:思考會使智能體趨向「內向化」,表現為回應縮減和對用戶的信息披露減少,這削弱了智能體與用戶間的信息交換,進而引發下游任務失敗。此外,我們證實明確提示信息披露能穩定提升不同模型家族的表現,說明主動透明化是優化智能體的關鍵槓桿。總體而言,本研究揭示信息透明意識是現實場景中推理智能體未來設計中至關重要卻尚未充分探索的維度。代碼已開源於:https://github.com/deeplearning-wisc/Thinking-Agent。
当前代码验证的主流范式严重依赖外部机制——例如基于执行的单元测试或辅助性LLM评判器——这些方法往往需要大量人力,或受限于评判模型自身的能力。这引发了一个基础性却尚未被探索的问题:能否仅从大语言模型的内部计算结构来评估其功能正确性?我们的核心目标是探究模型在代码生成过程中,其神经动力学是否编码了可内部解码且能预测逻辑有效性的信号。受机制可解释性研究的启发,我们提出将代码验证视为机制诊断任务,把模型的显式算法轨迹映射为行级归因图。通过解构复杂的残差流,我们试图在模型内部电路中识别出区分正确推理与逻辑错误的结构特征。跨Python、C++和Java的实证分析表明,内在正确性信号在不同语法体系下均保持稳健。从这些内部图谱提取的拓扑特征比表面启发式方法更能可靠预测代码正确性,并能实现针对性因果干预以修正错误逻辑。这些发现确立了内部自省作为验证生成代码的可解码属性。项目代码详见https://github.com/bruno686/CodeCircuit。
人工智能的发展可被视为数据驱动学习范式的演进过程,数据组织与利用方式的迭代升级持续推动着模型能力的进步。当前大语言模型研究主要依赖数据规模单向扩张的范式,日益面临数据可获得性、采集成本和训练效率的瓶颈。本文提出通用人工智能发展正进入数据-模型协同演进的新阶段:模型主动指导数据管理,而高质量数据又反哺模型能力提升。为实现这一愿景,我们设计了支持异构学习目标和成本约束下全周期大模型训练的分层数据管理框架。具体而言,我们构建了L0-L4五级数据管理体系,涵盖从原始未筛选资源到可验证结构化知识的完整谱系。该框架创新性地将大模型全面应用于质量评分、内容编辑等数据管理环节,实现跨层数据精炼。每个层级具有独特的数据属性、管理策略和训练职能,支持数据在预训练、中期训练和对齐阶段进行战略配置。该框架通过平衡数据质量、获取成本与边际训练收益,为可扩展可持续的数据管理提供系统化解决方案。我们通过实证研究验证框架有效性:从原始语料构建分级数据集并应用于多阶段训练,实验结果表明分级数据利用能显著提升训练效率和模型性能。为促进相关研究,我们向社区开源分级数据集与处理工具。
强化学习(RL)在人形机器人控制领域应用广泛,其中同策略方法(如近端策略优化PPO)通过大规模并行仿真实现稳健训练,并能在某些场景下实现真实机器人的零样本部署。然而,同策略算法的低样本效率限制了其在新环境中的安全适应能力。尽管异策略RL和基于模型的RL已展现出更高的样本效率,但人形机器人的大规模预训练与高效微调之间仍存在差距。本文发现,采用大批量更新和高更新数据比(UTD)的异策略软演员-评论家算法(SAC),可可靠支持人形运动策略的大规模预训练,并实现真实机器人的零样本部署。在适应能力方面,我们证明这些经过SAC预训练的策略可通过基于模型的方法在新环境和分布外任务中进行微调。新环境中的数据收集采用确定性策略执行,而随机探索则被限制在基于物理原理的世界模型中进行。这种分离机制既降低了适应过程中随机探索的风险,又保持了改进所需的探索覆盖度。总体而言,该方法将预训练阶段的大规模仿真时效优势与微调阶段基于模型学习的样本效率优势相结合。
我们推出MotionCrafter——一个基于视频扩散的框架,能够从单目视频中联合重建四维几何并估计稠密运动。该方法的核心在于提出了一种在共享坐标系下联合表示稠密三维点云与三维场景流的新范式,以及专门学习该表征的新型四维变分自编码器。与先前研究强制三维数值与潜变量严格对齐RGB-VAE潜变量(尽管二者分布本质不同)的做法不同,我们证明这种对齐并无必要且会导致次优性能。为此,我们提出了新的数据归一化与VAE训练策略,能更有效地迁移扩散先验,显著提升重建质量。在多个数据集上的大量实验表明,MotionCrafter在几何重建与稠密场景流估计方面均达到最先进性能,几何重建与运动重建指标分别提升38.64%和25.0%,且无需任何后优化处理。项目页面:https://ruijiezhu94.github.io/MotionCrafter_Page
近年来,虽然语音合成技术取得了飞速进展,但开源歌声合成系统在工业部署方面仍面临重大挑战,尤其在鲁棒性和零样本泛化能力方面。本报告推出SoulX-Singer——一款兼顾高质量与实用性的开源歌声合成系统。该系统支持基于符号乐谱(MIDI)或旋律表征的可控歌声生成,能够在实际制作流程中实现灵活且富有表现力的控制。基于超过42,000小时人声数据训练,该系统支持普通话、英语和粤语,在不同音乐语境下均能持续实现跨语言的最优合成质量。此外,为可靠评估实际场景中的零样本歌声合成性能,我们构建了SoulX-Singer-Eval专用基准数据集,该数据集严格遵循训练-测试分离原则,为零样本场景下的系统化评估提供支持。
实现稳定且高能效的运动是人形机器人在现实应用中持续运行的关键。现有模型预测控制(MPC)和强化学习(RL)方法通常将能量相关指标嵌入多目标优化框架,这种方法需要大量超参数调优且易产生次优策略。为应对这些挑战,我们提出能量约束优化(ECO)框架,该约束强化学习方法将能量指标从奖励函数中分离,重构为显式不等式约束。该方法为能量成本提供了清晰可解释的物理表征,能通过更高效直观的超参数调优提升能效。ECO通过拉格朗日法分别对能耗和参考运动施加专用约束,以实现人形机器人稳定、对称、高能效的步行。我们在儿童尺寸人形机器人BRUCE上进行了仿真到仿真及仿真到实物的实验,将ECO与MPC、标准奖励塑形RL以及四种先进约束RL方法进行对比。结果表明,ECO在保持稳健步态性能的同时,能耗显著低于基线方法。这些成果标志着人形机器人能效运动控制取得重大进展。所有实验演示均可见于项目网站:https://sites.google.com/view/eco-humanoid。
奖励模型(RM)在大语言模型(LLM)训练中至关重要,但传统方法通常依赖大规模人工标注的偏好对。随着LLM的广泛部署,真实场景下的用户交互已成为隐式奖励信号的丰富来源。这引发了一个关键问题:能否直接从真实交互数据中构建奖励模型?本研究通过采用WildChat作为交互数据源,提出了一套从用户反馈中提取可靠人类偏好的流程,无需偏好对即可通过序数回归方法生成18.6万高质量训练样本,进而训练出WildReward模型。大量实验表明,WildReward在保持更优校准特性和跨样本一致性的同时,达到了与传统奖励模型相当甚至更优的性能。研究还发现,WildReward的性能直接受益于用户多样性——用户基数越大,奖励模型越强。最终,我们将WildReward应用于在线DPO训练,在多项任务中均观察到显著提升。代码与数据已发布于https://github.com/THU-KEG/WildReward。
具可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型(LLM)推理能力的關鍵方法。然而,持續訓練常導致策略熵崩潰,其特徵為熵值急遽衰減,引發過早的過度自信、輸出多樣性降低,以及抑制學習的梯度範數消失現象。梯度保留剪裁是影響此動態的主要因素,但現有緩解策略多屬靜態,且缺乏將剪裁機制與精確熵控制相連結的框架。本文從梯度保留剪裁的角度重新構建強化學習中的熵控制。我們首先從理論與實證層面驗證特定重要性取樣比率區域對熵增減的貢獻基於這些發現,我們引入一種採用動態剪裁閾值的新型調控機制,以精確管理熵值。更進一步,我們設計並評估了包括「先增後減」、「減-增-減」及「振盪衰減」在內的動態熵控制策略。實驗結果表明,這些策略能有效緩解熵崩潰,並在多項基準測試中實現卓越性能。
大型推理模型(LRMs)中的测试时计算资源分配已被广泛应用,并在数学问题求解、代码合成和规划等领域发挥作用。近期研究通过扩展自我一致性与并行思维、添加通用"思考标记"以及提示模型在作答前重读问题来解决该问题。然而,这些方法要么注入与任务无关的标记,要么强制采用无法解释——且常常忽略——许多LRMs在其内部推理链开头表现出的自发重复现象的启发式策略。相比之下,我们分析并利用模型重述问题的倾向(将其称为提示回声/EOP),将其作为前置的计算资源调配机制。通过将回声消除视为基于拒绝的条件化处理,并定义可计算的代理指标"回声似然差距ΔL",我们形式化了其概率成本。这为早期重复现象与似然增益及下游准确性之间建立了缺失的理论联系。但该理论本身并未阐明如何利用EOP。因此,我们开发了通过监督微调植入"先回声后推理"模式的回声蒸馏微调(ED-SFT),以及无需训练即可在推理过程中重新锚定模型的回声提示(EP)技术。尽管前景可观,量化超越冗余性的收益仍非易事。为此我们进行了长度与后缀控制的似然分析及分层注意力研究,表明EOP能增强中间层对答案前缀的注意力分布,这与注意力重聚焦机制相一致。在GSM8K、MathQA、Hendrycks-MATH、AIME24和MATH-500数据集上采用相同解码设置与计算预算的评估显示,该方法相较基线模型获得稳定提升。代码发布于https://github.com/hhh2210/echoes-as-anchors。
智能体系统的评估通常基于其在特定环境中完成任务的表现。当前多数研究采用每项任务单次运行的pass@1分数作为性能指标,并假定该指标能可靠反映系统性能。为验证这一假设,我们在SWE-Bench-Verified数据集上收集了涵盖三种模型和两种框架的6万条智能体轨迹数据。研究发现存在显著方差:根据所选运行次数的不同,单次运行的pass@1估值会产生2.2至6.0个百分点的波动,即使在温度参数为0时标准差仍超过1.5个百分点。这种方差具有重要影响:文献中报道的2-3个百分点性能提升可能源于评估噪声而非真实算法进步。通过令牌级分析发现,轨迹差异在早期阶段(通常在前百分之几的令牌处)就已显现,这些微小差异会逐步放大形成不同的解决策略。为确保智能体系统评估的可靠性,我们建议采用三项实践准则:(1)对每项任务进行多次独立运行以计算pass@1估值,尤其在测量微小改进时;(2)运用统计功效分析确定检测预期效应量所需的运行次数;(3)采用k>1的pass@k(乐观边界)和pass^k(悲观边界)等指标,以更全面刻画性能边界。虽然这些实践会增加评估成本,但对于区分真实科学进展与统计噪声至关重要。
分词是形态丰富语言(如土耳其语)神经语言建模的关键设计选择,这类语言的能产性黏着特性对词汇效率与形态保真度构成双重挑战。现有研究虽探索了分词器家族与词汇量规模,但普遍存在三大局限:(i) 在未系统控制分词器训练语料的情况下调整词汇量;(ii) 缺乏深度的内在诊断指标;(iii) 下游任务评估范围狭窄。我们首次对土耳其语子词分词开展系统化研究,提出"子词宣言"框架:通过联合调控词汇量与分词器训练语料规模(数据与词汇耦合),在参数预算匹配条件下比较多种分词器家族(WordPiece、形态层级分词器及字符基线),并在语义(自然语言推理、语义文本相似度、情感分析、命名实体识别)、句法(词性标注、依存解析)及形态敏感探针任务上进行综合评估。为解析分词器成败根源,我们开发了形态感知诊断工具包,突破粗粒度统计局限,涵盖边界级微观/宏观F1值、解耦的词干原子性与表层边界命中率、过度/不足分割指数、字符/词语编辑距离、延续率,以及词缀类型覆盖度与词例级原子性。本研究的四重贡献在于:(i) 系统探究词汇-语料-性能三元关系;(ii) 建立连接内在诊断与外在性能的统一形态评估框架;(iii) 通过受控对比明确字符级与形态级分词器的优势场景;(iv) 开源评估代码、分词流水线及模型。作为该领域的开创性研究,本"子词宣言"为形态丰富语言构建高效分词器提供了可操作的指导原则,并为后续研究奠定了可复现的基础。
情感理解是构建社会智能体的关键要素。尽管当前多模态大语言模型在此任务中展现出强大性能,但仍存在两大挑战:情绪与无关视听线索之间的伪关联,以及语言模型主干中文本先验驱动的视听线索幻觉。为量化并解析这些问题,我们提出EmoReAlM基准测试,专门评估多模态大语言模型在线索-情绪关联性、幻觉现象及模态一致性方面的表现。进而我们提出AVEm-DPO偏好优化技术,使模型响应与视听输入及情感中心化查询实现对齐。该方法通过构建基于文本提示引导的响应偏好体系,针对存在伪关联或幻觉的响应与视听输入对进行优化,同时引入正则化项以惩罚对文本先验的依赖,从而有效抑制特定模态线索的幻觉。在DFEW、RAVDESS和EMER数据集上的实验表明,我们的方法使基线模型在零样本场景下获得6-19%的相对性能提升。通过提供严谨的基准测试与鲁棒的优化框架,本研究为多模态大语言模型的情感理解能力评估与社会人工智能发展奠定了理论基础。代码、模型及基准测试数据将于https://avere-iclr.github.io发布。
近期專家混合架構的研究進展表明,可通過聯邦式訓練方法使各專家模型獨立於其他專家進行訓練,並利用共享基礎模型實現協調。然而我們提出假設:並非所有領域都需要完整規模的專家模型,低秩適配器可能已足夠勝任。本文提出FlexMoRE(靈活秩異構專家混合架構),其專家組件可為完整規模專家或適當秩值的適配器。我們通過評估6種秩值從2^0到2^{14}的專家模型,系統性研究專家秩值與下游任務性能的平衡關係,共完成150組混合實驗(含96組雙專家混合與54組七專家混合),並在120項任務中進行驗證。實驗基於FlexOlmo架構,將其預訓練專家轉化為低秩版本。專家秩值與下游任務性能的回歸分析顯示:推理密集型基準任務的最佳秩值顯著高於知識密集型基準任務。這種秩敏感性發現直接影響記憶體效率:採用最優秩值時,FlexMoRE在參數量不足基線模型三分之一(10.75B對比33.27B)的情況下,下游任務平均性能(47.18分)優於採用完整專家的FlexOlmo基線模型(45.46分)。所有代碼將開源發布。
现代语言模型(LM)往往会在训练数据中记忆部分内容并生成逐字复现的文本片段。当原始数据涉及敏感信息或受版权保护时,这种复现行为会引发创作者授权与补偿问题,并为开发者带来合规风险。我们提出锚定解码(Anchored Decoding)——一种即插即用的推理阶段抑制逐字复制方法:通过将生成内容约束在经宽松许可训练的安全语言模型附近,该方法能实现对基于混合许可数据训练的风险语言模型的安全解码。锚定解码会沿生成轨迹自适应分配用户设定的信息预算,并通过每步约束实现序列级保证,从而形成可调节的风险-效用平衡机制。为提升实用性,我们同步推出了经宽松许可训练的安全模型TinyComma(18亿参数)以及锚定字节解码(Anchored_{Byte} Decoding)——该方法通过字节采样框架(Hayase等人,2025)实现跨词表融合的字节级变体。我们在六组模型对上进行了长文本版权风险与效用评估,结果显示锚定解码与锚定字节解码定义了新的帕累托前沿:在保持接近原始模型的流畅性与事实准确性的同时,能以微小的推理开销将风险基线模型与安全参照模型之间的可测量复制差距(基于六项复制指标平均值)最高削减75%。
大型語言模型依賴鍵值快取(kv-cache)來避免自迴歸解碼過程中的冗餘計算,但隨著上下文長度增加,讀寫快取會迅速飽和GPU記憶體頻寬。現有研究雖已探索KV快取壓縮技術,但多數方法忽略了kv-cache的數據依賴特性及其在不同層級的動態變化。本文提出KV-CoRE(基於秩評估的KV快取可壓縮性量化方法),這是一種基於奇異值分解(SVD)的技術,可量化kv-cache的數據依賴型低秩可壓縮性。該方法通過弗羅貝尼烏斯範數計算最優低秩近似,且無需梯度計算並支持增量處理,能實現高效的數據集級別分層評估。基於此方法,我們分析了涵蓋五個英語領域和十六種語言的多個模型與數據集,揭示了可壓縮性與模型架構、訓練數據及語言覆蓋範圍的系統性關聯規律。在分析過程中,我們採用歸一化有效秩作為可壓縮性度量指標,並證明其與壓縮下的性能衰減存在強相關性。本研究建立了首個大規模LLM的kv-cache可壓縮性基準評估框架,為動態感知數據的壓縮技術及以數據為中心的模型開發提供了新視角。
多向量延迟交互检索器(如ColBERT)虽能实现最先进的检索质量,但其查询时成本主要消耗在对每个候选文档进行详尽的令牌级MaxSim交互计算。虽然通过单向量表示近似延迟交互可降低计算成本,但往往会导致准确率显著下降。我们提出Col-Bandit算法,该查询时剪枝算法通过将重排序转化为有限总体Top-K识别问题来减轻计算负担。Col-Bandit基于部分观测的文档分数维护不确定性感知边界,并自适应地仅揭示在可调松弛度的统计决策边界下确定顶级结果所需的(文档,查询令牌)MaxSim条目。与离线剪枝整个文档或令牌的粗粒度方法不同,Col-Bandit可动态稀疏化交互矩阵。该算法作为标准多向量系统的零样本即插即用层,无需修改索引、离线预处理或模型重训练。在文本(BEIR)和多模态(REAL-MM-RAG)基准测试表明,Col-Bandit在将MaxSim浮点运算量降低高达5倍的同时保持了排序保真度,证明稠密延迟交互评分存在大量冗余,可在查询时被有效识别并剪枝。
智能体技能通过可复用的类程序模块扩展了大语言模型(LLM)智能体的能力,这些模块定义了触发条件、程序逻辑及工具交互机制。随着此类技能在公共市场的激增,其类型分布、用户采用模式及潜在风险尚不明确。为解答这些问题,我们对某主流市场的40,285个公开技能展开大规模数据驱动分析。研究发现:技能发布呈现与社区关注度变化同步的短期爆发特征;技能内容高度集中于软件开发工作流,而信息检索与内容创作类技能占据显著采用份额。除内容趋势外,我们揭示了跨领域的明显供需失衡现象,并发现尽管技能长度呈重尾分布,多数技能仍控制在常规提示预算内。最后,我们观察到生态系统存在高度同质化,意图级冗余普遍存在,同时识别出包括支持状态变更或系统级操作技能在内的重大安全风险。总体而言,本研究为智能体技能这一新兴基础设施层提供了量化图谱,为未来技能复用、标准化及安全感知设计的研究指明了方向。
偏微分方程在建模物理、生物及图形现象方面具有精确性,但数值方法仍面临维度灾难、计算成本高昂及领域特定离散化等挑战。本研究旨在系统探讨不同PDE求解器的优劣,并将其应用于具体科学模拟问题,包括正问题求解、反问题求解及方程发现。特别地,我们将近期提出的CNF(NeurIPS 2023)框架求解器拓展至多因变量与非线性的设定,并开发其下游应用。研究成果包括选定方法的实现、自调节技术、基准问题评估,以及对神经PDE求解器与科学模拟应用的全面综述。
檢索增強生成(RAG)技術雖能提升大型語言模型在知識密集型任務中的推理能力,但現有RAG流程應用於大規模實體匹配時會產生顯著的檢索與生成開銷。為解決此侷限性,本文提出CE-RAG4EM——一種基於分塊批量檢索與生成機制的高性價比RAG架構,可有效降低計算成本。我們同時建立了一套針對實體匹配的RAG系統分析評估框架,重點關注分塊感知優化策略與檢索粒度設計。大量實驗表明,相較於強基準模型,CE-RAG4EM在保證可比甚至更優匹配質量的同時,能顯著縮短端到端運行時間。進一步分析揭示,關鍵配置參數會在性能與開銷之間形成內在權衡,這為設計高效可擴展的實體匹配與數據集成RAG系統提供了實踐指導。
我们推出Aster——一款能够以超越现有框架20倍以上速度运行的自主科学发现人工智能体。该智能体在给定任务、初始程序及程序性能评估脚本后,能持续迭代优化程序,往往能实现新的突破性性能表现。Aster通过大幅减少新发现所需的迭代次数,将可处理问题领域扩展至包含长评估周期的任务(例如耗时数小时的机器学习训练任务)。 我们将Aster应用于数学、GPU内核工程、生物学、神经科学及语言模型训练等多个领域,具体包括:埃尔德什最小重叠问题、TriMul内核优化、单细胞分析去噪问题、训练神经活动预测模型以在ZAPBench基准测试中取得优异表现,以及NanoGPT极速挑战赛。除ZAPBench任务中仅用不到1/190的计算量就达到最佳人工解决方案水平外,Aster在其他所有任务中均实现了最先进的成果。 Aster可通过asterlab.ai网站的在线界面和API进行访问。
大型语言模型(LLMs)有望通过跨领域推理加速科学发现进程。然而当前挑战已非信息获取,而在于如何建立跨学科的有效关联。这在材料科学领域尤为突出——该领域的创新需要融合从分子化学到机械性能的多维度概念。无论是人类研究者还是单智能体LLM都难以完全应对这种信息洪流,后者还常出现幻觉现象。为突破此瓶颈,我们提出一种基于大规模知识图谱的多智能体框架,用于寻找全氟/多氟烷基物质(PFAS)的可持续替代品——这类化学品正面临严格的监管审查。该框架中的智能体分别专注于问题分解、证据检索、设计参数提取和图谱遍历,通过发掘不同知识模块间的潜在联系来支持假设生成。消融实验表明,完整多智能体流程优于单次提示方法,印证了分布式专业化与关联推理的价值。我们证明通过定制图谱遍历策略,系统可在聚焦关键性能的利用式搜索与发现新兴跨领域连接的探索式搜索间动态切换。以生物医学导管为例,该框架成功生成兼具摩擦学性能、热稳定性、耐化学性与生物相容性的可持续无PFAS替代方案。本研究建立了知识图谱与多智能体推理相结合的材料设计新范式,并通过多个初步设计方案验证了该方法的可行性。
文本嵌入技术虽赋能众多自然语言处理应用,却面临嵌入反演攻击带来的严重隐私风险——此类攻击可暴露敏感属性或重构原始文本。现有差分隐私防御方案假设嵌入维度具有均匀敏感性,导致噪声添加过量且效用受损。我们提出SPARSE这一面向用户的框架,实现文本嵌入中针对特定概念的隐私保护。该框架融合两大核心技术:(1) 通过可微分掩码学习识别用户自定义概念的隐私敏感维度;(2) 采用马氏机制施加基于维度敏感度校准的椭圆噪声。与传统球面噪声注入不同,SPARSE选择性扰动隐私敏感维度,同时保留非敏感语义。通过在六个数据集上对三种嵌入模型及攻击场景进行评估,SPARSE在降低隐私泄露的同时,相较最先进的差分隐私方法始终展现出更优的下游任务性能。
最新研究表明,偏好对齐目标可视为已对齐(被选)与未对齐(被拒)响应分布之间的散度估计量。本研究将这种基于散度的视角扩展至通用对齐场景,例如仅存在环境奖励的可验证奖励强化学习场景。在此统一框架下,我们基于f-散度的变分表示提出了两类通用大语言模型对齐方法:f-群组相对策略优化(一类在线策略强化学习算法)和f-混合对齐损失(融合在线/离线策略的优化目标)。理论分析证明,这些目标函数类能在对齐后提升平均奖励。通过数学推理(RLVR)和安全对齐(PA)任务的实证验证,本框架在性能与灵活性方面均优于现有方法。
我们首次基于经验过程理论,在Lean 4中构建了统计学习理论(SLT)的完整形式化体系。该端到端的形式化基础设施填补了最新Lean 4 Mathlib库的空白,包含高斯利普希茨集中性的完整推导、次高斯过程杜德利熵积分定理的首个形式化证明,以及应用于(稀疏)最小二乘回归的尖锐收敛率分析。项目采用人机协同工作流完成,由人类设计证明策略,AI智能体执行战术级证明构建,最终形成经过人工验证的SLT工具箱。除实现外,形式化过程还揭示并修正了标准SLT教材中的隐含假设与缺失细节,推动了对理论逐行粒度的深入理解。本研究奠定了可复用的形式化基础,为机器学习理论的未来发展开辟了新路径。代码已开源:https://github.com/YuanheZ/lean-stat-learning-theory
通用多模态检索(UMR)旨在实现文本与视觉间的任意模态互搜,然而当查询需要潜在推理(如解析未明确指代或匹配组合约束)时,现代嵌入模型仍显脆弱。我们认为这种脆弱性常源于数据缺陷:当图像携带"隐性"证据且查询隐含关键语义时,单次嵌入过程需同时完成推理与压缩,易引发伪特征匹配。为此,我们提出一种以数据为中心的框架,通过将推理过程外化至检索前阶段来解耦这两项任务。利用强视觉-语言模型,我们通过以下方式显化隐性语义:对语料库条目中的视觉证据进行密集描述,解析查询中的模糊多模态指代,并将冗长指令重写为简洁的检索约束。仅靠推理时增强并不足够,检索器必须在这些语义密集的表示上进行训练,以避免分布偏移并充分利用增强信号。在M-BEIR数据集上的实验表明,我们的推理增强训练方法较基线模型取得稳定提升,消融实验显示语料增强主要惠及知识密集型查询,而查询增强对组合式修改请求至关重要。代码已公开于https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval。
鱼类集群运动展现了活性物质系统中涌现的自组织现象,然而用于模拟和分析这些动力学的计算工具仍分散于不同研究团队。我们推出dewi-kadita这一开源Python库,该库实现了基于库津区域的三维模型,并配备了专为海洋集体行为研究定制的综合熵诊断工具。该库引入七种信息论度量指标——集群内聚熵、极化熵、深度分层熵、角动量熵、最近邻熵、速度关联熵和集群形态熵——这些指标可表征经典序参数无法捕捉的独特组织特征。这些指标综合形成海洋集群指数(OSI),为集体无序度提供单一标量度量。在四种典型构型(无序群、环状群、动态平行群、高度平行群)中的验证证实了已知相行为的正确复现:无序群保持极化度P < 0.1且OSI约等于0.71的紊乱状态,而高度平行态实现P = 0.998且OSI = 0.24,速度关联熵趋近于零。该熵框架成功区分了通过不同组织机制呈现相似序参数量级的环状群和动态平行群构型。Numba即时编译技术将成对相互作用计算速度提升10-100倍,使标准工作站能在五分钟内完成150-250个智能体超过1000-2000个时间步长的模拟。NetCDF4输出格式确保了与海洋学分析工具的互操作性。该库满足了集体行为建模领域对标准化、可复现基础设施的需求,其作用类似于成熟的分子动力学代码。
因果发现对于推动科学AI和数据分析等数据驱动领域的发展至关重要,但现有方法在处理大规模图结构时面临显著的时间与空间效率瓶颈。为解决这一挑战,我们提出CauScale——一种专为高效因果发现设计的神经架构,可将推理规模扩展至包含1000个节点的图结构。该架构通过降维单元压缩数据嵌入提升时间效率,并采用绑定注意力权重避免维护轴向特定注意力图以优化空间效率。为保持高精度因果发现能力,CauScale采用双流设计:数据流从高维观测值中提取关系证据,图流则整合统计图先验并保留关键结构信号。在训练阶段,CauScale成功扩展至500节点图规模(此前研究因空间限制无法实现),在涵盖不同图规模和因果机制的测试数据中,分别实现分布内数据99.6%的mAP和分布外数据84.4%的mAP,同时推理速度较现有方法提升4至13000倍。项目页面详见https://github.com/OpenCausaLab/CauScale。