每日精選AI研究論文及翻譯
為突破大型語言模型(LLMs)在推理準確性和效率上的上下文限制瓶頸,我們提出了線程推理模型(Thread Inference Model, TIM),這是一系列專為遞歸與分解式問題解決而訓練的LLMs,以及TIMRUN,一種支持超越上下文限制的長程結構化推理的推理運行時。TIM與TIMRUN的結合,在單一語言模型推理中支持近乎無限的工作記憶和多跳工具調用,克服了輸出限制、位置嵌入約束和GPU記憶體瓶頸。此性能的實現,是通過將自然語言建模為以長度和深度衡量的推理樹,而非線性序列。這些推理樹由帶有思考的任務、遞歸子任務以及基於我們在Schroeder等人(2025年)提出的概念得出的結論組成。在生成過程中,我們維護一個工作記憶,僅保留由基於規則的子任務修剪機制選出的最相關上下文標記的鍵值狀態,從而實現了位置嵌入和GPU記憶體頁面在整個推理過程中的重複利用。實驗結果顯示,我們的系統即使在操控GPU記憶體中高達90%的鍵值緩存時,仍能保持高推理吞吐量,並在數學任務上提供精確推理,以及處理需要長程推理和多跳工具使用的信息檢索挑戰。
本文介紹了Step-Audio~2,這是一個專為工業級音頻理解與語音對話設計的端到端多模態大型語言模型。通過整合潛在音頻編碼器與以推理為核心的強化學習(RL),Step-Audio 2在自動語音識別(ASR)和音頻理解方面展現出卓越性能。為實現真正的端到端語音對話,Step-Audio 2將離散音頻標記的生成融入語言建模中,顯著提升了其對副語言信息(如說話風格和情感)的響應能力。為有效利用現實世界數據中豐富的文本與聲學知識,Step-Audio 2整合了檢索增強生成(RAG),並能夠調用外部工具,如網絡搜索以減少幻覺,以及音頻搜索以切換音色。基於數百萬小時的語音與音頻數據訓練,Step-Audio 2在多樣化的對話場景中展現出智能與表現力。評估結果表明,相較於其他開源與商業解決方案,Step-Audio 2在各種音頻理解與對話基準測試中達到了最先進的性能。更多信息請訪問https://github.com/stepfun-ai/Step-Audio2。
科學推理對於培養人工智慧科學家及支持人類研究人員推進自然科學發現的前沿至關重要。然而,開源社群主要聚焦於數學與編程領域,而忽視了科學領域,這很大程度上歸因於缺乏開放、大規模、高品質且可驗證的科學推理數據集。為彌補這一缺口,我們首先推出了TextbookReasoning,這是一個開放數據集,其特點是從12,000本大學級科學教科書中提取的真實參考答案,涵蓋了7個科學領域的65萬道推理題目。我們進一步引入了MegaScience,這是一個大規模混合的高品質開源數據集,總計125萬個實例,通過系統性的消融研究開發而成,評估了多種數據選擇方法,以確定每個公開科學數據集的最佳子集。同時,我們構建了一個全面的評估系統,涵蓋了15個基準測試中的多樣化主題與題型,並整合了全面的答案提取策略,以確保評估指標的準確性。我們的實驗表明,與現有的開源科學數據集相比,我們的數據集在更簡潔的回應長度下實現了更優的性能與訓練效率。此外,我們在MegaScience上訓練了Llama3.1、Qwen2.5及Qwen3系列基礎模型,這些模型在平均性能上顯著超越了相應的官方指導模型。此外,MegaScience對於更大、更強的模型表現出更高的效能,暗示了科學調優的規模效益。我們向社群發布了我們的數據整理流程、評估系統、數據集及七個訓練模型,以推動科學推理研究的發展。
視覺-語言-行動(VLA)推理任務要求智能體能夠解讀多模態指令,進行長時程規劃,並在動態環境中靈活行動。現有方法通常以端到端的方式訓練VLA模型,直接將輸入映射到行動,而缺乏顯式推理,這限制了它們在多步驟規劃或適應複雜任務變化的能力。本文提出ThinkAct,這是一個雙系統框架,通過強化視覺潛在規劃來橋接高層推理與低層行動執行。ThinkAct訓練一個多模態大語言模型,基於目標完成度和軌跡一致性,生成由強化行動對齊的視覺獎勵引導的具身推理計劃。這些推理計劃被壓縮成視覺計劃潛在,用於條件化下游行動模型,以在目標環境中實現穩健的行動執行。在具身推理和機器人操作基準上的大量實驗表明,ThinkAct能夠在複雜的具身AI任務中實現少樣本適應、長時程規劃和自我校正行為。
擴散變換器已作為基於U-net的擴散模型的一種替代方案,用於高保真圖像和視頻生成,提供了更優的可擴展性。然而,其龐大的計算量仍是實際部署中的主要障礙。現有的加速方法主要利用時間維度,如在擴散時間步之間重用緩存特徵。本文提出了一種無需訓練的框架——區域自適應潛在升採樣(RALU),該框架沿空間維度加速推理。RALU在三階段進行混合分辨率採樣:1)低分辨率去噪潛在擴散,以高效捕捉全局語義結構;2)對易於在全分辨率下產生偽影的特定區域進行區域自適應升採樣;3)全分辨率下的所有潛在升採樣,以進行細節精煉。為了穩定跨分辨率轉換的生成,我們利用噪聲時間步重調度來適應不同分辨率下的噪聲水平。該方法在保持圖像質量的同時顯著減少了計算量,在FLUX上實現了高達7.0倍的加速,在Stable Diffusion 3上實現了3.0倍的加速,且質量下降極小。此外,RALU與現有的時間加速方法(如緩存方法)互補,因此可以無縫集成,進一步減少推理延遲而不影響生成質量。
人類在解決複雜問題時,常借助視覺輔助工具,如圖表或草圖。訓練多模態模型實現相同的功能,即視覺思維鏈(Visual CoT),面臨以下挑戰:(1) 現成視覺CoT性能不佳,阻礙了強化學習的應用;(2) 缺乏高質量的視覺CoT訓練數據。我們引入了Zebra-CoT,這是一個包含182,384個樣本的多樣化大規模數據集,其中包含邏輯連貫的文本-圖像交錯推理軌跡。我們專注於四類任務,這些任務中繪製草圖或視覺推理尤為自然,涵蓋幾何、物理和算法等科學問題;二維視覺推理任務,如視覺搜索和拼圖;三維推理任務,包括三維多跳推理、具身及機器人規劃;視覺邏輯問題及策略遊戲,如國際象棋。在Zebra-CoT訓練語料上微調Anole-7B模型,使我們測試集的準確率提升了+12%,並在標準VLM基準評估中獲得了高達+13%的性能提升。微調Bagel-7B則生成高質量的交錯視覺推理鏈,彰顯了Zebra-CoT在開發多模態推理能力方面的有效性。我們開源了數據集和模型,以支持視覺CoT的開發與評估。
增強大型視覺語言模型(LVLMs)的視覺慢思維推理能力對於解決複雜的多模態任務至關重要。然而,由於LVLMs主要通過視覺語言對齊進行訓練,因此難以採用策略內強化學習(RL)來發展慢思維能力,因為其探索空間受到初始能力的限制。策略外RL提供了一種超越當前策略的方法,但直接從外部模型提取軌跡可能會因模型間視覺感知能力不匹配而導致視覺幻覺。為解決這些問題,本文提出了SOPHIA,一種簡單且可擴展的半策略外RL方法,用於視覺語言慢思維推理。SOPHIA通過結合可訓練LVLM的策略內視覺理解與語言模型的策略外慢思維推理,構建了一個半策略外行為模型,為推理分配基於結果的獎勵,並向後傳播視覺獎勵。然後,LVLM通過策略外RL算法從獲得的推理軌跡中學習慢思維推理能力。在InternVL2.5和InternVL3.0(8B和38B規模)上的大量實驗顯示了SOPHIA的有效性。值得注意的是,SOPHIA將InternVL3.0-38B的平均性能提升了8.50%,在多個多模態推理基準測試中達到了開源LVLMs的頂尖水平,甚至在具有挑戰性的MathVision和OlympiadBench上超越了一些閉源模型(例如GPT-4.1),分別達到了49.08%和49.95%的pass@1準確率。分析表明,SOPHIA優於監督微調和直接策略內RL方法,為進一步的策略內訓練提供了更好的策略初始化。
視覺語言模型(VLMs)在機器人領域已被廣泛採用,以實現自主規劃。然而,將原本基於互聯網數據訓練的VLMs應用於多樣化的現實世界機器人仍是一大挑戰。本文提出ExpTeach框架,通過構建自我生成的現實世界經驗記憶,將VLMs與實體機器人進行對接。在ExpTeach中,VLM自主規劃行動、驗證結果、反思失敗並在閉環中調整機器人行為。此過程中產生的自我生成經驗隨後被總結為長期記憶,使得能夠通過檢索增強生成(RAG)技術檢索已學知識來指導未來任務。此外,ExpTeach利用按需圖像註釋模塊增強了VLMs的空間理解能力。實驗中,我們展示了反思將四項具挑戰性的機器人任務的成功率從36%提升至84%,並觀察到智能物體交互的出現,包括創造性工具的使用。在對12個現實世界場景(其中8個為未見過的場景)的廣泛測試中,我們發現基於長期記憶的對接將單次試驗成功率從22%提升至80%,證明了ExpTeach的有效性和泛化能力。
隨著大型語言模型(LLMs)的快速發展,開發有效的評判模組以提供精確指導已成為關鍵且具挑戰性的任務。本文首先展示,當前廣泛採用的基於監督微調的評判模組建構方法,並未能真正提升模型的評判能力,反而產生了表面化、缺乏深入反思與驗證的評判。為釋放前所未有的評判潛力,我們提出了RefCritic,這是一個基於強化學習的長鏈思維評判模組,採用雙重基於規則的獎勵機制:(1)解決方案判斷的實例級正確性,以及(2)基於評判的策略模型改進準確性,旨在生成高質量的評估並提供可操作的反馈,有效指導模型改進。我們在Qwen2.5-14B-Instruct和DeepSeek-R1-Distill-Qwen-14B上對RefCritic進行了評估,涵蓋五個基準測試。在評判與改進設置下,RefCritic在所有基準測試中均展現出一致的優勢,例如,在AIME25上,兩個基礎模型分別取得了6.8%和7.2%的提升。值得注意的是,在多數投票機制下,經RefCritic篩選的策略模型隨著投票數量的增加展現出更優的擴展性。此外,儘管RefCritic在解決方案級別的監督下進行訓練,其在ProcessBench(一個用於識別數學推理中錯誤步驟的基準測試)上的表現仍優於步驟級別的監督方法。
現有的圖像引導合成方法雖能協助將前景物體嵌入用戶指定的背景圖像區域,並在該區域內實現自然融合而不改變圖像其餘部分,但我們觀察到,當任務涉及人與物體互動時,這些現有方法在合成無縫且感知互動的合成圖像方面往往力不從心。本文中,我們首先提出HOComp,這是一種新穎的方法,用於將前景物體合成到以人為中心的背景圖像上,同時確保前景物體與背景人物之間的和諧互動及其外觀的一致性。我們的方法包含兩個關鍵設計:(1) 基於MLLMs的區域姿態引導(MRPG),利用MLLMs識別互動區域及互動類型(如持握、舉起),為生成的互動姿態提供從粗到細的約束,並結合人體姿態關鍵點來追蹤動作變化,實施細粒度姿態約束;(2) 細節一致的外觀保持(DCAP),統一了形狀感知的注意力調節機制、多視角外觀損失及背景一致性損失,以確保前景形狀/紋理的一致性及背景人物的忠實再現。隨後,我們為此任務提出了首個名為互動感知的人與物體合成(IHOC)的數據集。在我們數據集上的實驗結果表明,HOComp能有效生成具有一致外觀的和諧人與物體互動,並在質量和數量上均優於相關方法。
大型语言模型(LLMs)的最新进展为学术文献检索开辟了新的机遇。然而,现有系统往往依赖于僵化的流程,并表现出有限的推理能力。我们引入了SPAR,一个多代理框架,该框架结合了基于RefChain的查询分解和查询演化,以实现更灵活和有效的搜索。为了促进系统评估,我们还构建了SPARBench,这是一个具有专家标注相关性标签的具有挑战性的基准。实验结果表明,SPAR显著优于强大的基线,在AutoScholar上实现了高达+56%的F1分数,在SPARBench上比表现最佳的基线高出+23%的F1分数。SPAR和SPARBench共同为推进学术检索研究提供了一个可扩展、可解释且高性能的基础。代码和数据将在以下网址提供:https://github.com/xiaofengShi/SPAR。
量化是一種關鍵技術,通過以較低精度表示網絡參數來減少網絡規模和計算複雜度。傳統的量化方法依賴於對原始訓練數據的訪問,但由於隱私問題或安全挑戰,這些數據往往受到限制。零樣本量化(ZSQ)通過使用從預訓練模型生成的合成數據來解決這一問題,從而消除了對真實訓練數據的需求。最近,ZSQ已被擴展到目標檢測領域。然而,現有方法使用未標記的任務無關合成圖像,這些圖像缺乏目標檢測所需的特定信息,導致性能不佳。在本文中,我們提出了一種新穎的任務特定ZSQ框架,用於目標檢測網絡,該框架包含兩個主要階段。首先,我們引入了一種邊界框和類別採樣策略,從預訓練網絡中合成任務特定的校準集,在沒有任何先驗知識的情況下重建物體位置、大小和類別分佈。其次,我們將任務特定訓練整合到知識蒸餾過程中,以恢復量化檢測網絡的性能。在MS-COCO和Pascal VOC數據集上進行的大量實驗證明了我們方法的效率和最先進的性能。我們的代碼公開在:https://github.com/DFQ-Dojo/dfq-toolkit。
個性化AI系統不僅需要理解用戶的偏好,還需深入探究這些偏好背後的原因——然而,當前的偏好模型通常將人類判斷視為黑箱。我們引入了PrefPalette,這是一個將偏好分解為屬性維度,並以人類可理解的方式針對不同社群價值觀定制其偏好預測的框架。PrefPalette通過兩種方式實現了認知科學中的多屬性決策原則:(1) 一個可擴展的反事實屬性合成步驟,涉及生成合成訓練數據以隔離單個屬性效應(例如,正式性、幽默感、文化價值觀),以及(2) 基於注意力的偏好建模,學習不同社群如何動態權衡這些屬性。此方法超越了聚合偏好建模,捕捉到驅動人類判斷的多樣化評估框架。在對來自在線平台Reddit的45個社群進行評估時,PrefPalette的平均預測準確率比GPT-4o高出46.6%。除了預測性能的提升,PrefPalette還揭示了直觀的、社群特定的特徵:學術社群重視冗長性和啟發性,衝突導向的社群看重諷刺和直接性,而支持型社群則強調同理心。通過建模人類判斷的屬性中介結構,PrefPalette不僅提供了更優的偏好建模,還帶來了透明、可解釋的洞察,為構建更值得信賴、價值觀感知的個性化應用邁出了第一步。
3D高斯潑濺技術以其高保真重建與實時新視角合成而著稱,然而其缺乏語義理解能力,限制了物體層面的感知。在本研究中,我們提出了ObjectGS,這是一個物體感知框架,將3D場景重建與語義理解相統一。ObjectGS不再將場景視為一個整體,而是將各個物體建模為生成神經高斯並共享物體ID的局部錨點,從而實現精確的物體層面重建。在訓練過程中,我們動態地增長或修剪這些錨點,並優化其特徵,同時利用帶有分類損失的獨熱ID編碼來強化清晰的語義約束。通過大量實驗,我們展示了ObjectGS不僅在開放詞彙和全景分割任務上超越了現有最先進的方法,還能無縫集成於網格提取和場景編輯等應用中。項目頁面:https://ruijiezhu94.github.io/ObjectGS_page
近期,Zaremba等人展示了增加推理時計算能提升大型專有推理LLM的穩健性。本文中,我們首先證明,較小規模的開源模型(如DeepSeek R1、Qwen3、Phi-reasoning)通過採用簡單的預算強制策略,也能從推理時擴展中獲益。更重要的是,我們揭示並批判性地檢驗了先前研究中的一個隱含假設:中間推理步驟對攻擊者而言是隱藏的。通過放寬這一假設,我們發現了一個重要的安全風險,直觀上並經實證驗證為一種逆向擴展定律:若中間推理步驟變得顯式可訪問,增加推理時計算會持續降低模型的穩健性。最後,我們探討了在實際場景中,即使推理鏈隱藏,模型仍易受攻擊的情況,例如集成工具推理的模型及高級推理提取攻擊。我們的研究結果共同表明,推理時擴展帶來的穩健性優勢高度依賴於對抗環境和部署情境。我們敦促實踐者在安全敏感的現實應用中應用推理時擴展前,仔細權衡這些微妙的取捨。
微調大型語言模型(LLM)可能導致意外的分佈外泛化。針對此問題的標準方法依賴於修改訓練數據,例如通過添加能更好指定預期泛化的數據。然而,這並不總是可行的。我們引入了概念消融微調(CAFT),這是一種利用可解釋性工具來控制LLM從微調中如何泛化的技術,而無需修改訓練數據或使用目標分佈的數據。給定一組對應於不期望概念的LLM潛在空間方向,CAFT通過在微調期間使用線性投影消融這些概念,引導模型遠離非預期的泛化。我們成功將CAFT應用於三個微調任務,包括新興錯位現象,即LLM在狹窄任務上微調後,對一般問題給出嚴重錯位的回應。在不改變微調數據的情況下,CAFT將錯位回應減少了10倍,且未降低訓練分佈上的性能。總體而言,CAFT代表了一種無需修改訓練數據即可引導LLM泛化的新穎方法。