每日精選AI研究論文及翻譯
大型語言模型(LLMs)通過利用長鏈思維的強化學習,展現了強大的數學推理能力,然而由於僅使用自然語言時缺乏明確的監督信號,它們在定理證明方面仍面臨挑戰。專用的領域特定語言,如Lean,通過形式化驗證證明提供了清晰的監督,從而實現了有效的強化學習訓練。在本研究中,我們提出了Seed-Prover,一種基於引理的全證明推理模型。Seed-Prover能夠根據Lean的反饋、已證明的引理以及自我總結,迭代地精煉其證明。為了解決國際數學奧林匹克(IMO)級別的競賽問題,我們設計了三種測試時推理策略,實現了深度與廣度兼備的推理。Seed-Prover證明了78.1%的形式化歷史IMO問題,在MiniF2F上達到飽和,並在PutnamBench上取得了超過50%的成績,大幅超越了先前的最先進水平。針對Lean中幾何支持的不足,我們引入了幾何推理引擎Seed-Geometry,其性能超越了先前的形式化幾何引擎。我們利用這兩個系統參與了2025年IMO,並完整證明了6道問題中的5道。這項工作代表了自動化數學推理的重大進展,展示了長鏈思維推理與形式化驗證的有效性。
隨著多模態推理模型的發展,類似於《鋼鐵人》中賈維斯的計算機使用代理(CUAs)正逐漸成為現實。圖形用戶界面(GUI)定位是CUAs執行實際操作的核心組件,類似於機器人技術中的機械控制,它直接關係到系統的成敗。它決定了點擊和輸入等操作,以及相關參數,如點擊的座標。目前,端到端的定位模型在ScreenSpot-pro和UI-Vision等具有挑戰性的基準測試中仍未能達到65%的準確率,這表明它們遠未達到部署的標準。在本研究中,我們對定位模型的訓練進行了實證研究,從數據收集到模型訓練的細節進行了全面考察。最終,我們開發了Phi-Ground模型系列,在代理設置下,對於參數少於10B的模型,在所有五個定位基準測試中均達到了最先進的性能。在端到端模型設置中,我們的模型仍然取得了SOTA的成績,在ScreenSpot-pro上得分為\textbf{43.2},在UI-Vision上得分為\textbf{27.2}。我們相信,本文討論的各種細節,以及我們的成功與失敗,不僅闡明了定位模型的構建,也對其他感知任務有所裨益。項目主頁:https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
語音對話模型(Spoken Dialogue Models, SDMs)近年來因其能直接生成語音回應使用者口語查詢的能力而受到廣泛關注。儘管其普及度日益提升,但在全面理解並模擬人類對話的實際效能方面,研究仍存在空白。這與基於文本的大型語言模型(Large Language Models, LLMs)形成對比,後者得益於廣泛的基準測試。人類語音互動本質上比文本更為複雜,這源於語音對話特有的特性。歧義性是一個挑戰,它既來自語義因素如同音異義,也涉及語音層面的異形同音詞、異義同音詞及重音模式等。此外,上下文依賴性,如省略、共指及多輪互動,進一步增加了人類對話動態的複雜度。為揭示SDM發展的現狀並應對這些挑戰,本文提出了一個包含1,079個中英文實例的基準數據集。配合一個與人類判斷高度一致、基於LLM的評估方法,該數據集促進了對SDM在解決這些實際挑戰中表現的全面探索。
推薦系統是人工智慧最具影響力的應用之一,作為連接用戶、商家和平台的關鍵基礎設施。然而,當前大多數工業系統仍嚴重依賴於歷史共現模式和日誌擬合目標,即優化過去的用戶互動而不明確建模用戶意圖。這種日誌擬合方法往往導致過度擬合狹窄的歷史偏好,無法捕捉用戶不斷變化和潛在的興趣。因此,它強化了過濾氣泡和長尾現象,最終損害用戶體驗並威脅整個推薦生態系統的可持續性。 為應對這些挑戰,我們重新思考了推薦系統的整體設計範式,並提出了RecGPT,這是一個將用戶意圖置於推薦流程核心的下一代框架。通過將大型語言模型(LLMs)整合到用戶興趣挖掘、項目檢索和解釋生成的關鍵階段,RecGPT將日誌擬合推薦轉變為以意圖為中心的過程。為了有效地將通用LLMs大規模對齊到上述特定領域的推薦任務,RecGPT採用了多階段訓練範式,該範式整合了推理增強的前對齊和自我訓練進化,並由人類-LLM協作評判系統指導。目前,RecGPT已在淘寶App上全面部署。線上實驗表明,RecGPT在各利益相關方中實現了持續的性能提升:用戶受益於內容多樣性和滿意度的增加,商家和平台獲得了更大的曝光和轉化率。這些在所有利益相關方中的全面改善結果驗證了LLM驅動、以意圖為中心的設計能夠促進更可持續和互利的推薦生態系統。
視覺-語言-動作(VLA)模型已成為一種流行的範式,用於學習能夠遵循語言指令並泛化到新場景的機器人操作策略。最近的研究開始探索將潛在動作(即兩幀之間視覺變化的抽象表示)融入VLA預訓練中。在本文中,我們介紹了villa-X,這是一種新穎的視覺-語言-潛在動作(ViLLA)框架,該框架在潛在動作建模方面取得了進展,以學習可泛化的機器人操作策略。我們的方法改進了潛在動作的學習方式以及它們如何被整合到VLA預訓練中。這些貢獻共同使villa-X在包括SIMPLER和LIBERO在內的模擬環境中,以及在包括夾爪和靈巧手操作的兩個真實世界機器人設置中,均取得了優異的性能。我們相信ViLLA範式具有顯著的潛力,並且我們的villa-X為未來的研究提供了堅實的基礎。
前馈式三维建模已成为实现快速高质量三维重建的一种有前景的方法。特别是直接生成显式三维表示(如三维高斯溅射)因其快速且高质量的渲染能力以及广泛的应用而受到极大关注。然而,许多基于Transformer架构的先进方法存在严重的可扩展性问题,因为它们依赖于多输入视图图像标记之间的完全注意力机制,导致随着视图数量或图像分辨率的增加,计算成本急剧上升。为了实现可扩展且高效的前馈式三维重建,我们提出了一种迭代式大型三维重建模型(iLRM),该模型通过迭代优化机制生成三维高斯表示,并遵循三个核心原则:(1) 将场景表示与输入视图图像解耦,以实现紧凑的三维表示;(2) 将完全注意力的多视图交互分解为两阶段注意力方案,以降低计算成本;(3) 在每一层注入高分辨率信息,以实现高保真重建。在RE10K和DL3DV等广泛使用的数据集上的实验结果表明,iLRM在重建质量和速度上均优于现有方法。值得注意的是,iLRM展现出卓越的可扩展性,在相同计算成本下,通过有效利用更多输入视图,显著提高了重建质量。
儘管強化學習(Reinforcement Learning, RL)在語言建模領域取得了顯著成功,但其成就尚未完全轉化到視覺運動代理中。RL模型面臨的一個主要挑戰是其容易過度擬合特定任務或環境,從而阻礙了在不同情境下獲取可泛化行為的能力。本文通過展示在Minecraft中經過RL微調的視覺運動代理能夠實現對未見過世界的零樣本泛化,為這一挑戰提供了初步解答。具體而言,我們探討了RL在增強3D世界中可泛化的空間推理與互動能力方面的潛力。為應對多任務RL表示中的挑戰,我們分析並確立了跨視角目標指定作為視覺運動策略的統一多任務目標空間。此外,為克服手動任務設計的重大瓶頸,我們提出了在高度可定制的Minecraft環境中進行自動化任務合成,以支持大規模多任務RL訓練,並構建了一個高效的分散式RL框架來支持這一過程。實驗結果顯示,RL將互動成功率顯著提升了4倍,並實現了包括現實世界在內的多樣化環境中空間推理的零樣本泛化。我們的研究結果強調了在3D模擬環境中進行RL訓練的巨大潛力,尤其是那些適合大規模任務生成的環境,對於顯著提升視覺運動代理的空間推理能力具有重要意義。
大型語言模型通過模擬的「助手」角色與用戶互動。雖然助手通常被訓練得樂於助人、無害且誠實,但有時會偏離這些理想狀態。在本文中,我們識別了模型激活空間中的方向——即角色向量——這些方向體現了多種特質,如邪惡、諂媚和產生幻覺的傾向。我們證實,這些向量可用於監測助手在部署時性格的波動。接著,我們應用角色向量來預測和控制訓練過程中發生的性格轉變。我們發現,無論是微調後有意還是無意的性格變化,都與相關角色向量的偏移強烈相關。這些偏移可以通過事後干預來緩解,或者通過一種新的預防性引導方法從一開始就避免。此外,角色向量可用於標記會導致不良性格變化的訓練數據,無論是在數據集層面還是單個樣本層面。我們提取角色向量的方法是自動化的,並且可以應用於任何感興趣的性格特質,只需提供自然語言描述即可。
我們提出了NeRF-GS,這是一個新穎的框架,能夠同時優化神經輻射場(NeRF)和3D高斯潑濺(3DGS)。該框架利用NeRF固有的連續空間表示來緩解3DGS的若干限制,包括對高斯初始化的敏感性、有限的空間感知能力以及高斯間弱相關性,從而提升其性能。在NeRF-GS中,我們重新審視了3DGS的設計,並逐步將其空間特徵與NeRF對齊,使這兩種表示能夠通過共享的3D空間信息在同一場景中進行優化。我們進一步通過優化隱式特徵和高斯位置的殘差向量來解決兩種方法之間的形式差異,從而增強3DGS的個性化能力。在基準數據集上的實驗結果顯示,NeRF-GS超越了現有方法,達到了最先進的性能。這一結果證實了NeRF和3DGS是互補而非競爭的,為結合3DGS和NeRF的高效3D場景表示提供了新的混合方法見解。
多模态大语言模型(MLLMs)能够实现视觉-语言推理,但常常生成看似合理却事实错误或视觉上无依据的输出,从而影响其可靠性。直接偏好优化(DPO)是一种通过将模型输出与人类偏好对齐来纠正幻觉的常见策略。现有的DPO策略通常将幻觉相关的偏好视为固定目标,依赖训练期间的静态监督信号。这种方法容易过度拟合偏好数据中的表面语言线索,导致分布僵化和虚假相关性,从而损害与因果相关视觉信息的关联。为克服这一局限,我们提出了TARS,一种基于令牌的自适应偏好策略,将DPO重新表述为一个最小-最大优化问题。TARS在语义约束下最大化令牌级分布变化以模拟对齐不确定性,同时在这些受控扰动下最小化预期偏好损失。这一联合目标在保持因果关联的同时,减轻了对偏好模式的过度拟合,从而减少了多模态推理中的幻觉。我们在多个幻觉基准上评估了TARS,发现其表现始终强劲。仅使用4.8k个偏好样本且无需专家反馈,TARS将幻觉率从26.4%降至13.2%,并将认知值从2.5降至0.4。它在多个关键指标上优于标准DPO,并与GPT-4o相当。
精準自動化理解農業任務,如病害識別,對於可持續作物生產至關重要。視覺語言模型(VLMs)的最新進展有望通過易於操作的文本交流促進人機互動,從而進一步拓展農業任務的範圍。在此,我們介紹AgroBench(農學家AI基準),這是一個用於評估VLMs在七個農業主題上的基準,涵蓋農業工程的關鍵領域並與實際農業相關。與近期的農業VLM基準不同,AgroBench由專家農學家進行註釋。我們的AgroBench涵蓋了最先進的類別範圍,包括203種作物類別和682種病害類別,以全面評估VLM的能力。在AgroBench上的評估中,我們發現VLMs在細粒度識別任務上仍有改進空間。值得注意的是,在雜草識別方面,大多數開源VLMs的表現接近隨機。憑藉我們廣泛的主題和專家註釋的類別,我們分析了VLMs所犯錯誤的類型,並為未來VLM的發展提出了潛在路徑。我們的數據集和代碼可在https://dahlian00.github.io/AgroBenchPage/ 獲取。
自其引入以来,softmax注意力机制凭借其表达能力和在广泛任务中的可扩展性,已成为现代Transformer架构的核心。然而,softmax注意力的主要缺点在于其相对于序列长度的二次内存需求和计算复杂度。通过替换softmax非线性,线性注意力及类似方法被提出,以规避softmax注意力的二次瓶颈。尽管这些线性形式的注意力源自原始的softmax公式,它们在下游任务准确性方面通常表现欠佳。虽然关于softmax非线性在查询与键内积上的强大直觉表明,相比其他非线性,它具备更优特性,但为何存在这种差异的问题仍未得到解答。本研究通过推导softmax注意力的递归形式,证明了线性注意力是softmax注意力的一种近似。利用这一形式,softmax注意力的每一部分都可以用递归神经网络(RNNs)的语言来描述。将softmax注意力描述为RNN,使得能够通过消融实验来理解softmax注意力各组成部分的重要性及其相互作用方式。由此,我们的工作有助于解释为何softmax注意力比其替代方案更具表达力。
藝術風格分類在計算美學領域仍是一項艱鉅挑戰,這主要歸因於專家標註數據集的稀缺性以及風格元素之間複雜且往往非線性的相互作用。儘管近期的雙教師自監督框架減少了對標註數據的依賴,但其線性投影層和局部聚焦難以建模全局構圖上下文及複雜的風格特徵交互。為克服這些限制,我們對雙教師知識蒸餾框架進行了改進,以Kolmogorov-Arnold網絡(KANs)替代傳統的多層感知機(MLP)投影與預測頭。我們的方法保留了來自兩個教師網絡的互補指導:一個側重於局部紋理與筆觸模式,另一個則捕捉更廣泛的風格層次結構,同時利用KANs基於樣條的激活函數,以數學精確度建模非線性特徵關聯。在WikiArt和Pandora18k數據集上的實驗表明,我們的方法在Top-1準確率上超越了基礎雙教師架構。研究結果凸顯了KANs在解構複雜風格流形中的重要性,從而實現了比MLP投影更優的線性探測準確率。
阿拉伯語因其複雜的形態學、可選的變音符號以及現代標準阿拉伯語(MSA)與多種方言並存,對自然語言處理(NLP)和資訊檢索(IR)構成了特殊挑戰。儘管阿拉伯語在全球的重要性日益增長,但在NLP研究和基準資源中仍顯不足。本文提出了一種專為阿拉伯語設計的增強型密集段落檢索(DPR)框架。我們方法的核心是一種新穎的注意力相關性評分(ARS),它取代了標準的交互機制,採用了一種自適應評分函數,更有效地模擬了問題與段落之間的語義相關性。我們的方法整合了預訓練的阿拉伯語語言模型和架構改進,以提高檢索性能,並在回答阿拉伯語問題時顯著提升排名準確性。相關代碼已公開於https://github.com/Bekhouche/APR{GitHub}。
數據以連續流的形式抵達我們的感官,從一個瞬間平滑地轉變到下一個瞬間。這些平滑的轉變可以被視為我們所處環境的連續對稱性,定義了刺激隨時間變化的等價關係。在機器學習中,尊重數據對稱性的神經網絡架構被稱為等變網絡,並在泛化能力和樣本效率方面具有可證明的優勢。然而,迄今為止,等變性僅被考慮用於靜態變換和前饋網絡,限制了其在序列模型(如循環神經網絡,RNNs)及相應的時間參數化序列變換中的應用。在本研究中,我們將等變網絡理論擴展到“流”這一領域——即捕捉自然隨時間變化的單參數李子群,如視覺運動。我們首先展示標準RNNs通常不具備流等變性:其隱藏狀態無法以幾何結構化的方式對移動刺激進行轉換。然後,我們展示了如何引入流等變性,並證明這些模型在訓練速度、長度泛化和速度泛化方面顯著優於非等變模型,無論是在下一步預測還是序列分類任務中。我們將這項工作視為構建尊重支配我們周圍世界的時間參數化對稱性的序列模型的第一步。
隨著隱私問題日益受到關注,機器遺忘(machine unlearning)技術,旨在使機器學習模型能夠「忘記」特定的訓練數據,已逐漸成為研究焦點。在現有方法中,基於影響力的遺忘方法因其能夠在不重新訓練的情況下估計單個訓練樣本對模型參數的影響而成為主流。然而,這種方法由於需要計算所有訓練樣本和參數的Hessian矩陣及其逆矩陣,導致計算開銷過大,使其在大規模模型和頻繁數據刪除請求的場景中難以實際應用。這凸顯了遺忘的困難性。受認知科學啟發,該領域研究表明記憶比遺忘更容易,本文建立了記憶(增量學習)與遺忘(機器遺忘)之間的理論聯繫。這一聯繫使得機器遺忘問題可以從增量學習的角度來解決。與遺忘(忘記)中耗時的Hessian計算不同,增量學習(記憶)通常依賴於更高效的梯度優化,這支持了上述認知理論。基於這一聯繫,我們從增量學習的視角提出了影響力近似遺忘(Influence Approximation Unlearning, IAU)算法,用於高效的機器遺忘。大量實證評估表明,IAU在移除保證、遺忘效率和模型效用之間實現了優越的平衡,同時在多樣化的數據集和模型架構上超越了現有的最先進方法。我們的代碼可在https://github.com/Lolo1222/IAU獲取。