每日精選AI研究論文及翻譯
基於可驗證獎勵的強化學習(RLVR)為增強大型模型的數學推理能力提供了穩健機制。然而我們發現,現有方法從算法和數據兩個維度都存在系統性缺失——儘管挑戰性問題對於完善未充分發展的能力至關重要,但現有方法對其重視不足。算法層面,廣泛使用的群組相對策略優化(GRPO)存在隱性失衡問題:策略更新幅度對難題反而較小。數據層面,增強方法主要通過改述問題來提升多樣性,未能系統性增加內在難度。為解決這些問題,我們提出雙維度MathForge框架,通過從兩個維度針對難題進行優化來提升數學推理能力。該框架包含難度感知群組策略優化(DGPO)算法和多維度問題重構(MQR)策略。具體而言,DGPO首先通過難度平衡的群組優勢估計修正GRPO的隱性失衡,並進一步採用難度感知的問題級加權機制優先處理難題;而MQR則通過多維度重構問題在保持原答案不變的前提下提升難度。MathForge形成協同循環:MQR拓展數據邊界,DGPO則有效學習增強後的數據。大量實驗表明,MathForge在多類數學推理任務上顯著優於現有方法。代碼與增強數據均已開源於:https://github.com/AMAP-ML/MathForge。
我們推出 LingBot-World,這是一款基於影片生成技術開發的開源世界模擬器。作為頂級世界模型,LingBot-World 具備以下特性:(1) 在廣泛環境中(包括現實場景、科學情境、卡通風格等)保持高擬真度與強健動態表現;(2) 實現分鐘級時長模擬的同時維持跨時間的上下文一致性,即具備「長期記憶」能力;(3) 支援即時互動,在以每秒16幀生成時延遲低於1秒。我們公開程式碼與模型,旨在縮小開源與閉源技術之間的差距。相信本次發布將為內容創作、遊戲開發、機器人學習等領域的實際應用注入創新動能。
我們推出創新者視覺語言模型(Innovator-VL),這是一款科學多模態大語言模型,旨在提升跨科學領域的理解與推理能力,同時在通用視覺任務上保持卓越性能。有別於當前依賴大規模領域專用預訓練與不透明流程的趨勢,我們的研究證明:透過原則性訓練設計與透明方法論,能以顯著降低的數據需求實現強大的科學智能。(i)首先,我們提供完全透明、端到端可重現的訓練流程,涵蓋數據收集、清理、預處理、監督微調、強化學習及評估,並附有詳細的優化方案,便於學界進行系統性擴展。(ii)其次,創新者-VL展現出卓越的數據效率,僅使用不足五百萬經篩選的樣本(無需大規模預訓練)便在多項科學任務中達到競爭性表現,凸顯透過原則性數據選擇而非無差別擴張即可實現有效推理。(iii)第三,創新者-VL具備強泛化能力,在通用視覺、多模態推理及科學基準測試中均取得競爭力結果,表明科學對齊性可融入統一模型而不損害通用能力。我們的實踐證實:即使沒有大規模數據,仍能建構高效、可重現且高性能的科學多模態模型,為未來研究提供實用基礎。
我們推出DeepSeek-OCR 2,旨在研究一種新型編碼器DeepEncoder V2的可行性——該架構能根據圖像語義動態重排視覺標記。傳統視覺語言模型(VLM)在將視覺標記輸入大型語言模型時,始終採用固定的光柵掃描順序(從左上到右下)與靜態位置編碼。然而這種方式與人類視覺感知相悖,後者會根據內在邏輯結構遵循靈活且語義連貫的掃描模式。尤其在處理複雜版式圖像時,人類視覺會展現因果驅動的序列化處理機制。受此認知機制啟發,DeepEncoder V2被設計為具備因果推理能力的編碼器,使其在基於LLM的內容解析前能智能重排視覺標記。本研究探索了一個新範式:是否可通過兩級串聯的一維因果推理結構有效實現二維圖像理解,從而為實現真正的二維推理提供新型架構思路。程式碼與模型權重已公開於http://github.com/deepseek-ai/DeepSeek-OCR-2。
強化學習已使大型語言模型能夠作為智能代理運�作,但由於高質量軌跡的稀缺性(特別是在有限資源下),訓練其執行長視野任務仍具挑戰性。現有方法通常會擴大軌跡採樣規模,並無差別地分配計算資源給中間步驟。這種做法本質上會將大量計算預算浪費在平凡步驟上,且無法保證樣本質量。為解決此問題,我們提出Spark框架(基於關鍵狀態動態分支的戰略策略感知探索),通過在關鍵決策狀態選擇性分支來實現資源高效的探索。我們的核心洞見是:在關鍵決策點啟動自適應分支探索以探測潛在軌跡,從而實現優先考慮採樣質量而非盲目覆蓋的精準資源分配。該設計利用代理的內在決策信號來降低對人為先驗的依賴,使代理能自主擴展探索並實現更強的泛化能力。在多樣化任務(如具身規劃)上的實驗表明,Spark能以顯著更少的訓練樣本達成更高的成功率,並在未見過的場景中展現出強健的泛化性能。
語言模型的表徵常包含對應高層次概念的線性方向。本研究探討這些表徵的動態特性:在(模擬)對話情境中,表徵如何沿著這些維度演變。我們發現線性表徵在對話過程中可能發生劇烈變化;例如,對話初期被表徵為事實的資訊,在對話結束時可能被表徵為非事實,反之亦然。這種變化具有內容依賴性:與對話相關的資訊表徵可能改變,但通用資訊通常保持穩定。即使對於能將事實性與表面回應模式分離的維度,這些變化依然穩健存在,且出現在不同模型家族與模型層級中。此類表徵變化無需依賴策略性對話——即使重播由完全不同的模型編寫的對話腳本,也能產生類似變化。然而,若僅在上下文置入明確標註為科幻小說的故事,適應效果則大幅減弱。我們還證明,沿表徵方向進行引導時,在對話不同節點可能產生截然不同的效果。這些結果符合以下觀點:表徵的演變可能是模型因應對話提示而扮演特定角色的結果。我們的研究發現可能對可解釋性與引導技術構成挑戰——具體而言,這意味著靜態解讀特徵或方向,或假設特定特徵範圍始終對應特定真實值的探測方法,可能產生誤導。然而,這類表徵動態也為理解模型如何適應上下文開闢了令人振奮的新研究方向。
大型語言模型在可驗證領域(如程式碼與數學)中正日益普遍地接受強化學習的後訓練。然而,當前基於可驗證獎勵的強化學習方法僅能從每次嘗試的標量結果獎勵中學習,形成了嚴重的信用分配瓶頸。許多可驗證環境實際上能提供豐富的文本反饋(例如運行時錯誤或評判評估),用以解釋嘗試失敗的原因。我們將此設定形式化為「具豐富反饋的強化學習」,並提出自蒸餾策略優化法,該方法能將符記化反饋轉化為密集的學習信號,無需依賴外部教師或顯式獎勵模型。SDPO將當前模型在反饋條件下的狀態視為自我教師,並將其基於反饋的下一符記預測蒸餾回策略中。透過這種方式,SDPO利用了模型在上下文情境中回顧性識別自身錯誤的能力。在科學推理、工具使用及LiveCodeBench v6的競技程式設計等任務中,SDPO相較於強勁的RLVR基線模型,顯著提升了樣本效率與最終準確率。值得注意的是,在僅回傳標量反饋的標準RLVR環境中,SDPO透過將成功滾動案例作為失敗嘗試的隱性反饋,同樣優於基線模型。最後,在測試階段對單一問題應用SDPO,可加速困難二元獎勵任務的探索進程,僅需三分之一嘗試次數即可達到與k選最佳採樣或多輪對話相同的發現概率。
儘管大型語言模型(LLM)具備流暢的語法生成能力,但在高風險領域確保其邏輯正確性仍是根本性挑戰。我們提出一種神經符號框架,將LLM與可滿足性模理論(SMT)求解器相結合,透過迭代優化產生可驗證導向的答案。此方法將LLM輸出分解為原子主張,將其自動形式化為一階邏輯,並使用自動定理證明驗證其邏輯一致性。我們引入三項關鍵創新:(1)透過形式語義等價性檢查實現多模型共識,確保候選答案在邏輯層面的一致性,消除表面形式指標的語法偏差;(2)語義路由機制,將不同類型的主導引導至合適的驗證策略——邏輯主張使用符號求解器,常識推理則採用LLM集成驗證;(3)透過最小修正子集(MCS)實現精確的邏輯錯誤定位,鎖定需修正的具體主張子集,將二元失敗信號轉化為可操作的反饋。我們的框架根據邏輯狀態對主張進行分類,並將多重驗證信號聚合為帶有方差懲罰的統一評分。系統利用結構化反饋迭代優化答案,直至達到接受標準或實現收斂。這種混合方法在可能處提供形式化保證,在其他場景採用共識驗證,推動可信AI的發展。在GPT-OSS-120B模型上,VERGE在一系列推理基準測試中,相比單次推理方法在收斂時實現平均18.7%的性能提升。
圖形用戶界面(GUI)智能體展現出巨大潛力,能讓基礎模型完成現實世界任務,從而革新人機交互模式並提升人類生產效率。本報告提出OmegaUse——一種支持計算機與手機使用場景、可在移動端與桌面端平台自主執行任務的通用型GUI智能體模型。構建高效GUI智能體模型依賴兩大關鍵要素:(1)高質量數據;(2)有效訓練方法。為此,我們引入了精心設計的數據構建流水線與解耦式訓練範式。在數據構建方面,我們整合嚴格篩選的開源數據集,並提出創新的自動化合成框架,通過自底向上的自主探索與自頂向下的分類法引導生成相結合,創建高保真合成數據。訓練策略上,為充分發揮數據價值,採用兩階段方案:先通過監督微調(SFT)建立基礎交互語法,再採用群組相對策略優化(GRPO)增強空間定位與序列規劃能力。為平衡計算效率與智能體推理能力,OmegaUse基於混合專家(MoE)架構構建。針對跨終端離線能力評估,我們推出OS-Nav基準測試套件,覆蓋多操作系統:面向中文安卓移動環境的ChiM-Nav,以及專注Ubuntu系統常規桌面交互的Ubu-Nav。大量實驗表明,OmegaUse在現有GUI基準測試中表現卓越:在ScreenSpot-V2上以96.3%的準確率刷新紀錄,在AndroidControl上達到79.1%的步驟成功率。在OS-Nav測試中,OmegaUse同樣表現優異,於ChiM-Nav實現74.24%步驟成功率,在Ubu-Nav取得55.9%平均成功率。
開源程式碼代理模型理應具備相較閉源系統的根本優勢:它們能夠針對私有程式庫進行專項優化,將儲存庫特定資訊直接編碼至模型權重中。然而,訓練成本與複雜度使得此優勢長期停留於理論層面。我們的研究證明這種優勢現已具備實踐可行性。本文提出「軟驗證高效儲存庫代理」(SERA),這是一種高效的程式碼代理訓練方法,能快速且低成本地創建專用於私有程式庫的代理模型。僅透過監督式微調(SFT),SERA就在完全開源(開放數據、方法、程式碼)模型中實現了頂尖性能,同時達到如Devstral-Small-2等前沿開源權重模型的效能水平。相較於強化學習,SERA模型的創建成本降低26倍;與先前的合成數據方法相比,達到同等性能的成本降低57倍。我們提出的「軟驗證生成」(SVG)方法能從單一程式庫生成數千條訓練軌跡,結合成本效益優勢,使私有程式庫專項優化成爲可能。除儲存庫專項優化外,我們更將SVG應用於更大規模的程式庫集合,生成超過20萬條合成訓練軌跡。基於此數據集,我們針對程式碼代理訓練的擴展律、消融實驗及干擾因素進行了深入分析。總體而言,我們相信這項工作將大幅加速開源程式碼代理的研究進程,並展現開源模型在私有程式庫專項優化方面的優勢。我們將SERA作為Ai2「開源程式碼代理系列」的首個模型發布,同時開放全部程式碼、數據及與Claude Code的整合方案,以支持研究社群發展。
任务无关特征上采样领域已成为一个新兴研究方向,旨在从预训练视觉骨干网络中高效生成更密集的特征。这类方法通过学习将低分辨率特征映射到高分辨率版本,能够以极低成本实现密集特征提取。早期研究主要采用迭代式上采样策略,而近期工作则转向基于交叉注意力的方法,但这些方法可能面临与待上采样骨干网络相同的效率扩展问题。本文论证了迭代上采样方法仍可与基于交叉注意力的方法相媲美,且能以更低推理成本实现最优性能。我们提出UPLiFT——一种通用像素级轻量特征变换架构,并设计高效的局部注意力算子以克服传统迭代特征上采样方法的局限。该算子采用完全局部化的注意力池化公式,实验表明局部注意力机制能使UPLiFT在上采样过程中保持特征稳定性,从而以低于现有像素级特征上采样器的推理成本达到最优性能。此外,我们将UPLiFT应用于生成式下游任务,证明其在VAE特征上采样方面与当前最优的耦合流匹配模型具有相当的性能。总体而言,UPLiFT为生成密集特征提供了一种通用高效的新途径。
尽管针对混响语音的研究已持续数十年,但由于多数语料库缺乏单文件声学标注或可复现性文档不充分,方法对比仍存在困难。我们提出RIR-Mega-Speech语料库,该库通过将LibriSpeech语音与RIR-Mega集合中约5000条模拟房间脉冲响应进行卷积生成,总时长约117.5小时。每个文件均包含依据明确定义的可复现流程,从源脉冲响应计算得到的RT60、直达声与混响声能比(DRR)和清晰度指数(C_{50})。我们同时提供重建数据集和复现所有评估结果的脚本。 基于Whisper small模型对1500组配对语句的测试结果显示:纯净语音的WER为5.20%(95%置信区间:4.69-5.78),混响版本为7.70%(7.04-8.35),配对增量达2.50个百分点(2.06-2.98),相当于相对性能下降48%。WER随RT60增加呈单调上升趋势,随DRR增大而下降,这与既往感知研究结论一致。虽然混响损害识别性能的核心结论已获公认,但我们旨在为学界提供声学条件透明、结果可独立验证的标准化资源。该资源库包含适用于Windows和Linux环境的一键重建指令。
多模态讽刺检测(MSD)旨在通过建模跨模态语义不一致性来识别图文对中的讽刺现象。现有方法常利用跨模态嵌入失配来检测不一致性,但当视觉与文本内容关联松散或语义间接时效果不佳。尽管近期研究利用大语言模型(LLM)生成讽刺线索,但这些生成内容固有的多样性和主观性往往会引入噪声。为解决这些局限,我们提出生成式差异比较网络(GDCNet)。该框架通过使用多模态大语言模型(MLLM)生成的描述性、事实依据充分的图像标题作为稳定语义锚点,来捕捉跨模态冲突。具体而言,GDCNet计算生成的客观描述与原始文本之间的语义和情感差异,同时测量视觉-文本保真度。这些差异特征随后通过门控模块与视觉、文本表征融合,以自适应平衡模态贡献。在MSD基准上的大量实验表明,GDCNet在准确性和鲁棒性方面均优于现有方法,在MMSD2.0基准上创造了最新最优性能。
尽管可验证奖励的强化学习(RLVR)显著提升了大型语言模型的推理能力,但随着问题趋于饱和,训练往往会陷入停滞。我们发现核心挑战在于信息性失败样本的可获取性不足:学习信号虽然存在,但在标准推演过程中却鲜少出现。为此,我们提出失败前缀条件化这一简单有效的方法,从饱和问题中持续学习。该方法不再从原始问题出发,而是通过将训练重新分配至基于罕见错误推理轨迹生成的前缀条件,使模型暴露于易失败状态。实验表明,失败前缀条件化带来的性能提升相当于在中等难度问题上的训练效果,同时保持了标记效率。进一步分析模型鲁棒性发现,该方法能降低误导性失败前缀下的性能衰减,尽管对正确早期推理路径的遵循程度存在轻微权衡。最后我们证明,在训练过程中动态更新失败前缀的迭代策略,能在性能平台期后实现额外增益。总体而言,我们的研究结果表明失败前缀条件化为RLVR在饱和问题上的持续训练提供了有效路径。
在多说话人环境中实现说话人归属的自动语音识别(ASR)仍是重大挑战。虽然某些方法在特定领域微调后能实现强劲性能,但鲜有系统能在跨领域数据集上良好泛化。我们先前提出的Diarization-Conditioned Whisper(DiCoW)模型利用说话人日志输出作为条件信息,通过极少量微调即展现出优异的多语言与多领域性能。本文针对DiCoW的核心局限——静默-目标-非目标-重叠(STNO)掩码的模糊性问题展开研究:当两个或多个说话人完全重叠时,尽管转写内容不同,其条件信息可能近乎相同。我们提出SE-DiCoW(自注册说话人日志条件化Whisper)模型,通过说话人日志定位对话中目标说话人最活跃的注册片段,将该片段作为固定条件信息经由交叉注意力机制注入每个编码器层。我们进一步通过改进数据分割、模型初始化和数据增强来优化DiCoW框架。这些创新共同带来显著提升:在EMMA MT-ASR基准测试中,SE-DiCoW相较原始DiCoW将宏平均tcpWER相对降低了52.4%。
大型语言模型(LLM)推理能力的最新进展日益依赖于训练后损失函数与对齐策略的优化。然而,诸如群体相对策略优化(GRPO)等标准强化学习(RL)范式仍受限于静态均匀性约束:即均匀的提示采样策略和固定数量的每提示滚动计算。对于异构、重尾分布的推理数据,这种机制会导致结构性低效——既在已解决的模式上浪费算力,又对困难问题的长尾部分训练不足。为此,我们提出多对抗者群体分布鲁棒优化(GDRO),这是一个以优化为核心的框架,通过动态调整训练分布来突破均匀推理模型的限制。 我们引入了在线难度分类器,将提示动态划分为基于pass@k指标的难度组别,进而提出两个独立的训练后GDRO博弈机制:(1)提示-GDRO采用指数移动平均去偏的乘性权重老虎机采样器,聚焦于高强度难度边界,对持续困难组别进行无频率偏差的加权提升;(2)滚动-GDRO利用影子价格控制器在组间重新分配滚动计算资源,在固定平均预算(计算中立)条件下最大化困难任务的梯度方差削减效果。我们为两个控制器提供了无悔保证,并对滚动-GDRO进行了方差代理分析,推导出平方根最优的滚动分配方案。在DAPO 14.1k数据集上使用Qwen3-Base模型的实验表明:相较于GRPO基线,提示-GDRO与滚动-GDRO在1.7B、4B和8B规模模型的pass@8准确率上分别实现+10.6%和+10.1%的平均相对提升。定性分析揭示了涌现的课程学习特性:对抗者将资源动态调配至持续演进的推理前沿,从而显著增强推理模型的性能。
在仇恨言论检测等社会敏感性任务中,大型语言模型(LLMs)生成解释的质量对用户信任和模型对齐等因素至关重要。虽然角色提示(PP)作为一种引导模型实现用户定制化生成的方式日益普及,但其对模型推理过程的影响仍待深入探究。本研究通过模拟不同人口统计特征的角色设定,探讨LLMs生成推理依据的差异性。基于带有词级标注的数据集,我们测量了模型与不同人口统计群体人工标注的一致性,并评估了PP对模型偏见和人类对齐的影响。通过对三种LLMs的评估,我们获得三项关键发现:(1)PP能提升最具主观性的任务(仇恨言论检测)的分类性能,但会降低推理质量;(2)模拟角色无法与真实世界对应群体对齐,且角色间高度一致性表明模型难以被有效引导;(3)无论是否使用PP,模型均表现出稳定的人口统计偏见和过度标记有害内容的倾向。我们的研究揭示了一个关键权衡:PP虽能提升社会敏感性任务的分类性能,但往往以牺牲推理质量为代价,且无法缓解模型固有偏见,这警示我们需要审慎应用该技术。
素描为动画创作提供了一种直观传达动态意图的方式(即元素如何随时间与空间变化),使其成为自动内容生成的天然媒介。然而现有方法常将草图限制为固定指令标记或预定义视觉形式,忽视了其自由形式的本质以及人类在塑造意图中的核心作用。为此,我们提出一种交互范式:用户通过自由手绘草图向视觉语言模型传达动态意图,并以草图故事板到动态图形的工作流实现具体应用。我们开发了交互界面,并通过24名参与者参与的三阶段研究进行改进。研究表明:素描能以极简输入传递运动信息,其固有模糊性需要用户参与澄清过程,且草图能可视化引导视频优化。我们的发现揭示了素描与人工智能交互在弥合意图与成果之间鸿沟的潜力,并验证了其在3D动画和视频生成领域的适用性。
随着机器人实时部署需求的日益增长,视觉-语言-动作模型亟需实现快速且端侧的推理能力。在当前VLA模型研究中,效率优化主要聚焦于令牌层面(如视觉令牌剪枝),而系统性减少Transformer层数的研究却鲜有关注。据我们所知,在知识蒸馏框架下对基于流预测的VLA模型进行层数压缩的探索尚属空白。本研究提出Shallow-pi——一种基于知识蒸馏的层压缩框架,通过将VLM主干网络和流式动作头的Transformer层数从18层锐减至6层,在标准操作基准测试中以成功率损失不足1%的代价实现推理速度提升逾两倍,确立了精简VLA模型的性能新标杆。尤为关键的是,我们在Jetson Orin和Jetson Thor边缘设备上,通过多机器人平台(包括仿人机器人系统)在复杂动态操作场景中的工业级实测验证了该方法的有效性。