每日精選AI研究論文及翻譯
大型语言模型(LLMs)正日益被寄望于超越简单的事实查询,转向需要将问题分解为子问题、协调多步推理以及综合来自不同来源证据的深度研究任务。我们将具有可验证答案的深度研究任务形式化为层次约束满足问题(HCSPs),这与单一约束、多跳或扁平CSP的表述有本质区别。然而,现有基准(如Natural Questions、HotpotQA)未能捕捉这种复杂性,而近期的合成数据集往往引入捷径推理、知识泄露或缺乏足够的结构深度。为填补这一空白,我们引入了InfoSeek,一个用于合成复杂深度研究任务的可扩展框架。InfoSeek采用双代理系统从大规模网页中递归构建研究树,将中间节点模糊化为有效的子问题,并将这些树转化为需要遍历完整层次结构的自然语言问题。它还支持快速扩展,生成了超过50K的训练样本、精选的测试集以及通过拒绝采样生成的推理轨迹。实验表明,在InfoSeek上训练的模型持续优于强基线。在具有挑战性的基准BrowseComp-Plus上,使用InfoSeek优化的3B LLMs超越了更大的32B模型和轻量级商业API(如Gemini2.5-Flash),同时达到了与更强API(如Gemini2.5-Pro)相当的性能。通过保留中间步骤和检索标签等元信息,InfoSeek进一步支持高级优化策略,包括复合奖励设计和轨迹级探索。我们在https://github.com/VectorSpaceLab/InfoSeek{此仓库}中提供了代码和数据集。
我們介紹了Robix,這是一個統一模型,將機器人推理、任務規劃和自然語言互動整合於單一的視覺-語言架構中。作為分層機器人系統中的高層認知層,Robix動態生成原子指令供低層控制器使用,並生成語言回應以實現人機互動,使機器人能夠在端到端框架內遵循複雜指令、規劃長期任務,並與人類自然互動。Robix進一步引入了新穎功能,如主動對話、實時中斷處理以及在任務執行期間的上下文感知常識推理。Robix的核心利用了思維鏈推理,並採用了三階段訓練策略:(1) 持續預訓練以增強基礎的具身推理能力,包括3D空間理解、視覺接地和任務中心推理;(2) 監督微調,將人機互動和任務規劃建模為統一的推理-行動序列;(3) 強化學習,以提高推理-行動的一致性和長期任務的連貫性。大量實驗表明,Robix在互動任務執行方面優於開源和商業基準(如GPT-4o和Gemini 2.5 Pro),展示了在各種指令類型(如開放式、多階段、約束性、無效和中斷)以及多種用戶參與任務(如餐桌清理、雜貨購物和飲食過濾)上的強大泛化能力。
可驗證獎勵的強化學習(RLVR)已成為數學推理任務的主流範式,在推理能力上提供了穩定的提升。然而,RLVR中的結果獎勵模型(ORMs)過於粗粒度,無法區分正確答案中的錯誤推理或錯誤答案中的有效推理。這種缺乏細粒度的情況顯著引入了噪聲和誤導性的梯度,阻礙了推理過程質量的進一步提升。雖然過程獎勵模型(PRMs)為中間步驟提供了細粒度的指導,但它們經常存在不準確性,並且容易受到獎勵欺騙的影響。 為了解決這一困境,我們引入了過程一致性過濾器(PROF),這是一種有效的數據處理策展方法,它將噪聲的細粒度過程獎勵與準確的粗粒度結果獎勵相協調。與在目標函數中簡單混合PRM和ORM(arXiv:archive/2506.18896)不同,PROF通過一致性驅動的樣本選擇來利用它們的互補優勢。我們的方法保留了具有較高平均過程值的正確響應和具有較低平均過程值的錯誤響應,同時保持了正/負訓練樣本的平衡。大量實驗表明,我們的方法不僅在最終準確性上比混合方法持續提高了超過4%,而且還增強了中間推理步驟的質量。代碼和訓練配方可在https://github.com/Chenluye99/PROF獲取。
語言模型(LMs)日益驅動著需要世界知識的實際應用。然而,模型如何將數據轉化為對世界的知識和信念的內部過程,目前尚缺乏深入理解。對這些過程的洞察可能為開發具有更一致、更穩健和更完整知識表示的語言模型鋪平道路。為便於研究這些問題,我們提出了LMEnt,這是一套用於分析語言模型在預訓練期間知識獲取的工具。LMEnt引入了:(1)一個基於維基百科、完全註解了實體提及的知識豐富的預訓練語料庫,(2)一種在預訓練數據上基於實體的檢索方法,其性能比之前的方法高出多達80.4%,以及(3)12個參數高達1B並包含4K個中間檢查點的預訓練模型,這些模型在知識基準測試中與流行的開源模型表現相當。這些資源共同提供了一個受控環境,用於分析預訓練中的實體提及與下游性能之間的聯繫,以及預訓練數據中因果干預的效果。我們通過研究跨檢查點的知識獲取展示了LMEnt的實用性,發現事實頻率是關鍵,但並不能完全解釋學習趨勢。我們發布LMEnt以支持對語言模型中知識的研究,包括知識表示、可塑性、編輯、歸因和學習動態。
有效的規劃需要強大的世界模型,然而能夠理解並對具有語義和時間抽象性的行動進行推理的高層次世界模型仍大多未得到充分發展。我們引入了視覺語言世界模型(VLWM),這是一個基於自然視頻進行語言世界建模訓練的基礎模型。面對視覺觀察,VLWM首先推斷總體目標的達成情況,隨後預測由交錯的行動與世界狀態變化構成的軌跡。這些目標是通過迭代的LLM自我精煉過程提取的,該過程以由“標題樹”表示的壓縮未來觀察為條件。VLWM同時學習了行動策略和動態模型,分別促進了基於反應的系統-1計劃解碼和通過成本最小化實現的反思性系統-2規劃。成本評估了由VLWM推演給出的假設未來狀態與預期目標狀態之間的語義距離,並由我們以自監督方式訓練的批評模型進行度量。VLWM在基準評估和我們提出的PlannerArena人類評估中均達到了視覺輔助規劃(VPA)的最新性能水平,其中系統-2相較於系統-1將Elo評分提升了+27%。此外,VLWM模型在RoboVQA和WorldPrediction基準測試中也超越了強大的VLM基線模型。
可控人臉生成在生成建模中面臨著關鍵挑戰,這主要源於語義可控性與照片級真實感之間所需的精細平衡。現有方法在將語義控制與生成管道解耦方面存在困難,而我們則通過專家專業化的視角重新審視了擴散變換器(DiTs)的架構潛力。本文介紹了Face-MoGLE,這是一個新穎的框架,其特點包括:(1)通過掩碼條件空間分解實現語義解耦的潛在建模,從而實現精確的屬性操控;(2)結合全局與局部專家的混合模型,捕捉整體結構和區域級語義,以實現細粒度的可控性;(3)一個動態門控網絡,生成隨擴散步驟和空間位置變化的時間依賴係數。Face-MoGLE為高質量、可控的人臉生成提供了一個強大而靈活的解決方案,在生成建模和安全應用中具有巨大潛力。大量實驗證明了其在多模態和單模態人臉生成設置中的有效性,以及其強大的零樣本泛化能力。項目頁面可在https://github.com/XavierJiezou/Face-MoGLE 訪問。
多主體個性化生成在基於多個參考主體合成圖像時,面臨著保持身份忠實性和語義連貫性的獨特挑戰。現有方法由於未能充分建模不同主體在共享表示空間中應如何互動,常遭遇身份混合和屬性洩露的問題。我們提出了MOSAIC,這是一個以表示為中心的框架,通過顯式的語義對應和正交特徵解耦,重新思考多主體生成。我們的關鍵洞見是,多主體生成需要在表示層面實現精確的語義對齊——明確知道生成圖像中的哪些區域應關注每個參考的哪些部分。為此,我們引入了SemAlign-MS,這是一個精心註釋的數據集,提供了多個參考主體與目標圖像之間的細粒度語義對應,此前在該領域尚不可得。基於此,我們提出了語義對應注意力損失,以強制精確的點對點語義對齊,確保從每個參考到其指定區域的高度一致性。此外,我們開發了多參考解耦損失,將不同主體推入正交的注意力子空間,防止特徵干擾的同時保留個體身份特徵。大量實驗表明,MOSAIC在多個基準測試中達到了最先進的性能。值得注意的是,當現有方法通常在超過3個主體時性能下降,MOSAIC在4個及以上參考主體的情況下仍保持高保真度,為複雜的多主體合成應用開闢了新的可能性。
現代機器人操作主要依賴於二維彩色空間的視覺觀察來進行技能學習,但這種方法在泛化能力上表現不佳。相比之下,生活在三維世界中的人類在與物體互動時,更依賴於物理屬性——如距離、大小和形狀——而非紋理。由於這些三維幾何信息可以從廣泛可用的深度相機中獲取,賦予機器人相似的感知能力似乎可行。我們的初步研究發現,使用深度相機進行操作具有挑戰性,主要是由於其精度有限且易受各種噪聲影響。在本研究中,我們提出了相機深度模型(CDMs)作為日常使用深度相機的簡單插件,該模型以RGB圖像和原始深度信號為輸入,輸出經過去噪的、精確的度量深度。為實現這一目標,我們開發了一個神經數據引擎,通過模擬深度相機的噪聲模式,從仿真中生成高質量的配對數據。我們的結果表明,CDMs在深度預測上達到了近乎仿真級別的精度,有效地彌合了仿真與現實之間的操作任務差距。值得注意的是,我們的實驗首次證明,在未添加噪聲或進行現實世界微調的情況下,基於原始仿真深度訓練的策略能夠無縫泛化到現實世界的機器人上,在涉及關節、反光和細長物體的兩個具有挑戰性的長時程任務中,性能幾乎沒有下降。我們希望我們的發現能激發未來研究在一般機器人策略中利用仿真數據和三維信息的靈感。
近年來,大型語言模型(LLMs)的進展展現了卓越的通用推理能力。然而,由於缺乏可控且可擴展的工具進行細粒度分析,系統性地評估和提升這些推理能力面臨挑戰。現有的基準測試和數據集往往缺乏必要的變量控制,無法進行多維度、系統性的分析和訓練,或者問題類型和格式過於單一。為解決這些限制,我們引入了SATQuest,這是一個系統性驗證工具,旨在通過直接從合取範式(CNF)實例生成多樣化的可滿足性邏輯推理問題,來評估和增強LLMs的邏輯推理能力。SATQuest沿著三個正交維度結構化這些問題:實例規模、問題類型和問題格式,並採用基於SAT的隨機問題生成和通過PySAT進行客觀答案驗證。這一設計緩解了記憶化問題,允許對推理性能進行細緻洞察,並實現了有效的強化微調。我們使用SATQuest對多種LLMs進行了廣泛評估,發現它們在邏輯推理方面存在顯著限制,特別是在超越熟悉的數學格式進行泛化時。此外,我們展示了使用SATQuest獎勵進行強化微調能顯著提升特定任務的表現,並能泛化到更複雜的實例,同時也凸顯了跨格式適應方面的持續挑戰。通過這些展示,我們展示了SATQuest作為基礎工具的潛力,以及其作為推進LLM邏輯推理的寶貴起點。