每日精選AI研究論文及翻譯
我們證明了使用單一訓練樣本的驗證獎勵強化學習(1-shot RLVR)能有效激勵大型語言模型(LLMs)的數學推理能力。將RLVR應用於基礎模型Qwen2.5-Math-1.5B,我們發現一個單一樣本能將模型在MATH500上的表現從36.0%提升至73.6%,並將六個常見數學推理基準的平均表現從17.6%提高至35.7%。這一結果與使用包含上述樣本的1.2k DeepScaleR子集所獲得的性能相當(MATH500:73.6%,平均:35.9%)。在不同模型(Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B)、RL算法(GRPO和PPO)以及不同數學樣本(許多樣本作為單一訓練樣本時,能在MATH500上帶來約30%或更高的提升)中,均觀察到了類似的顯著改進。此外,我們在1-shot RLVR過程中發現了一些有趣現象,包括跨領域泛化、自我反思頻率增加,以及訓練準確率飽和後測試性能仍持續提升的現象,我們稱之為後飽和泛化。進一步,我們驗證了1-shot RLVR的有效性主要源於策略梯度損失,這與“頓悟”現象有所區別。我們還展示了在1-shot RLVR訓練中促進探索(例如,通過添加適當係數的熵損失)的關鍵作用。作為額外發現,我們觀察到僅應用熵損失而無任何結果獎勵,也能顯著提升Qwen2.5-Math-1.5B在MATH500上的表現,提升幅度達27.4%。這些發現可激勵未來關於RLVR數據效率的研究,並促使重新審視RLVR的最新進展及其底層機制。我們的代碼、模型和數據已開源於https://github.com/ypwang61/One-Shot-RLVR。
衡量進展是任何科學領域發展的基石。隨著基準測試扮演越來越核心的角色,它們也變得更容易受到扭曲。Chatbot Arena已成為排名最強AI系統的首選排行榜。然而,在本研究中,我們發現了一些系統性問題,導致了競爭場域的扭曲。我們發現,未公開的私人測試實踐使少數供應商受益,他們能夠在公開發布前測試多個變體,並在需要時撤回分數。我們證實,這些供應商選擇最佳分數的能力導致了Arena分數的偏差,因為他們選擇性地披露了性能結果。在極端情況下,我們發現Meta在Llama-4發布前測試了27個私人LLM變體。我們還證實,專有的閉源模型在Arena中被抽樣的比例(戰鬥次數)更高,並且被移除的模型數量少於開源和開放權重的替代方案。這兩種政策隨著時間的推移導致了巨大的數據訪問不對稱。像Google和OpenAI這樣的供應商分別獲得了Arena中估計19.2%和20.4%的數據。相比之下,83個開放權重模型合計僅獲得了估計29.7%的總數據。我們表明,訪問Chatbot Arena數據帶來了顯著的好處;根據我們的保守估計,即使是有限的額外數據,也可以在Arena分佈上實現高達112%的相對性能提升。這些動態共同導致了對Arena特定動態的過度擬合,而非一般模型質量。Arena建立在組織者和維護這一寶貴評估平台的開放社區的共同努力之上。我們提出了可行的建議,以改革Chatbot Arena的評估框架,並促進該領域更公平、更透明的基準測試。
檢索增強生成(Retrieval-Augmented Generation, RAG)在通過將模型回應與查詢相關的外部知識相結合來提升事實準確性方面展現了顯著潛力。然而,現有的大多數RAG方法僅限於純文本語料庫,儘管近期研究已將RAG擴展至圖像和視頻等其他模態,但它們通常仍局限於單一模態特定的語料庫。相比之下,現實世界中的查詢所需知識類型多種多樣,單一類型的知識源無法全面應對。為此,我們提出了UniversalRAG,這是一種新穎的RAG框架,旨在從具有多樣模態和粒度層次的異構知識源中檢索並整合知識。具體而言,基於觀察到強制所有模態進入由單一合併語料庫導出的統一表示空間會導致模態間隔閡,即檢索傾向於偏好與查詢同模態的項目,我們提出了一種模態感知路由機制,該機制能動態識別最合適的模態特定語料庫並在其中進行定向檢索。此外,超越模態本身,我們將每一模態組織成多個粒度層次,從而實現根據查詢的複雜性和範圍進行精細調整的檢索。我們在涵蓋多種模態的8個基準測試上驗證了UniversalRAG,展示了其相較於模態特定和統一基線模型的優越性。
我們推出了ReasonIR-8B,這是首個專為通用推理任務訓練的檢索模型。現有的檢索模型在推理任務上表現有限,部分原因在於現有的訓練數據集主要針對簡短的事實性查詢,這些查詢與直接回答它們的文檔緊密相關。我們開發了一個合成數據生成流程,該流程為每個文檔創建一個具有挑戰性且相關的查詢,以及一個看似相關但實際上無用的困難負例。通過在我們的合成數據與現有公開數據的混合數據集上進行訓練,ReasonIR-8B在BRIGHT這一廣泛使用的推理密集型信息檢索(IR)基準測試中,無需重排序器時達到了29.9 nDCG@10的新紀錄,使用重排序器時則達到了36.9 nDCG@10。應用於RAG任務時,ReasonIR-8B相較於閉卷基線,在MMLU和GPQA上的表現分別提升了6.4%和22.6%,超越了其他檢索模型和搜索引擎。此外,ReasonIR-8B在測試時計算效率更高:在BRIGHT上,其性能隨著查詢改寫得更長且信息更豐富而持續提升;與LLM重排序器結合使用時,它依然優於其他檢索模型。我們的訓練方法具有通用性,可輕鬆擴展到未來的LLM;為此,我們開源了代碼、數據和模型。
基於獎勵的大型語言模型(LLMs)對齊方法面臨兩個關鍵限制:一是易受獎勵欺騙的影響,即模型利用獎勵信號中的缺陷;二是當LLMs被用作獎勵模型時,依賴於脆弱且勞動密集型的提示工程。我們引入了元策略優化(Meta Policy Optimization, MPO),這是一個通過整合元獎勵模型來動態調整訓練過程中獎勵模型提示的框架,從而解決這些挑戰。在MPO中,元獎勵模型監控不斷變化的訓練環境,並持續調整獎勵模型的提示以保持高度對齊,提供一個抵抗策略利用的自適應獎勵信號。這種元學習方法促進了更穩定的策略優化,並大大減少了手動設計獎勵提示的需求。其性能與經過大量手工設計獎勵提示的模型相當或更優。此外,我們展示了MPO在問答和數學推理等多樣化任務中保持其有效性,而無需專門的獎勵設計。超越標準的RLAIF,MPO的元學習公式易於擴展到更高層次的對齊框架。總體而言,該方法解決了基於獎勵的RL對齊在理論和實踐中的挑戰,為更健壯和適應性強的對齊策略鋪平了道路。代碼和模型將公開分享。
本文提出了一種有效的學習新型四維具身世界模型的方法,該模型能夠預測三維場景在具身代理行動下的動態演變,同時保證空間和時間的一致性。我們建議通過訓練RGB-DN(RGB、深度和法線)視頻來學習四維世界模型。這種方法不僅超越了傳統的二維模型,將詳細的形狀、配置和時間變化納入其預測中,還使我們能夠有效地學習具身代理的精確逆動力學模型。具體而言,我們首先利用現成模型擴展現有的機器人操作視頻數據集,添加深度和法線信息。接著,我們在這個註釋數據集上微調視頻生成模型,該模型聯合預測每一幀的RGB-DN(RGB、深度和法線)。然後,我們提出了一種算法,直接將生成的RGB、深度和法線視頻轉換為高質量的四維世界場景。我們的方法確保了從具身場景中預測的四維場景在時間和空間上的連貫性,支持具身環境的新視角合成,並促進了策略學習,其性能顯著優於基於先前視頻世界模型所導出的策略。
基於指令的圖像編輯技術通過自然語言提示實現了強大的圖像修改能力,然而現有方法在精度與效率之間存在權衡。精細調校方法需要大量計算資源和大規模數據集,而無訓練技術則在指令理解與編輯質量上表現欠佳。我們通過利用大規模擴散變換器(DiT)的增強生成能力及內在上下文感知,解決了這一困境。我們的解決方案提出了三項創新:(1)一種基於上下文提示的零樣本指令遵循框架,避免了結構性變更;(2)一種LoRA-MoE混合調優策略,通過高效適應與動態專家路由增強了靈活性,無需大規模重新訓練;(3)一種利用視覺語言模型(VLM)的早期過濾推理時間縮放方法,提前選擇更好的初始噪聲,從而提升編輯質量。廣泛的評估顯示了我們方法的優越性:它在僅需0.5%訓練數據和1%可訓練參數的情況下,超越了現有最先進的方法。這項工作建立了一種新範式,實現了高精度且高效的指令引導編輯。代碼與演示可在https://river-zhang.github.io/ICEdit-gh-pages/找到。
大型語言模型(LLMs)在預訓練階段接觸到受版權保護的素材,引發了部署後可能無意中侵犯版權的擔憂。這促使了「版權下架」方法的發展,這些後訓練方法旨在防止模型生成與受版權保護內容實質相似的輸出。雖然現有的緩解措施在應對一般風險方面有一定效果,但我們證明它們忽略了最壞情況下的版權風險,這體現在模型可能生成來自受版權保護來源的長篇逐字引用。我們提出了BloomScrub,這是一種極其簡單卻高效的推理時方法,提供認證的版權下架。我們的方法通過反覆交織引用檢測與重寫技術,來轉換可能侵權的段落。通過利用高效的數據草圖(布隆過濾器),我們的方法能夠對大規模現實世界語料庫進行可擴展的版權篩查。當無法移除超過長度閾值的引用時,系統可以選擇不回應,從而提供認證的風險降低。實驗結果顯示,BloomScrub降低了侵權風險,保持了實用性,並通過自適應的棄權機制適應了不同層次的執法嚴格性。我們的結果表明,輕量級的推理時方法在版權預防方面可能出人意料地有效。
我們提出了X-Fusion框架,該框架擴展了預訓練的大型語言模型(LLMs)以處理多模態任務,同時保留其語言能力。X-Fusion採用雙塔設計,配備模態專用權重,保持LLM參數不變,同時整合視覺專用信息以實現理解和生成。我們的實驗表明,X-Fusion在圖像到文本和文本到圖像任務上始終優於其他架構。我們發現,融入以理解為重點的數據能提升生成質量,減少圖像數據噪聲可增強整體性能,而特徵對齊則加速了較小模型的收斂,但對較大模型影響甚微。這些發現為構建高效統一的跨模態模型提供了寶貴洞見。
大型多模態模型(如GPT-4、Gemini、Chameleon)已發展成為擁有數百萬用戶的強大工具。然而,這些模型仍屬通用型,缺乏對特定用戶概念的個性化知識。先前的研究已探索了文本生成的個性化方法,但這些方法如何適應新的模態(如圖像生成)仍不明確。本文介紹了Yo'Chameleon,這是首次嘗試研究大型多模態模型的個性化。給定某個概念的3-5張圖像,Yo'Chameleon利用軟提示調優來嵌入特定主題的信息,以(i)回答有關該主題的問題,並(ii)重現像素級細節,在新情境下生成該主題的圖像。Yo'Chameleon通過(i)一種自提示優化機制來平衡多模態性能,以及(ii)一種「軟正例」圖像生成方法來提升少樣本設置下的圖像質量。
訓練大型語言模型(LLMs)作為互動代理面臨獨特的挑戰,包括長遠決策制定與隨機環境反饋的交互。雖然強化學習(RL)在靜態任務中取得了進展,但多輪代理的RL訓練仍未被充分探索。我們提出了StarPO(狀態-思考-行動-獎勵策略優化),這是一個針對軌跡級代理RL的通用框架,並引入了RAGEN,一個用於訓練和評估LLM代理的模塊化系統。我們在三個風格化環境中的研究揭示了三個核心發現。首先,我們的代理RL訓練顯示出一種反覆出現的“迴聲陷阱”模式,其中獎勵方差陡峭和梯度尖峰;我們通過StarPO-S解決了這一問題,這是一個具有軌跡過濾、批評器整合和解耦裁剪的穩定變體。其次,我們發現RL滾動的塑造將受益於多樣的初始狀態、中等交互粒度以及更頻繁的採樣。第三,我們表明,如果沒有細粒度、推理感知的獎勵信號,代理的推理很難通過多輪RL出現,並且它們可能表現出淺層策略或幻想的思維。代碼和環境可在https://github.com/RAGEN-AI/RAGEN獲取。
多模態沉浸式空間戲劇生成致力於基於多模態提示,創造具有戲劇性韻律的連續多說話者雙耳語音,其在增強現實(AR)、虛擬現實(VR)等領域具有潛在應用價值。此任務需基於多模態輸入,同時建模空間信息與戲劇性韻律,數據收集成本高昂。據我們所知,我們的工作是首次嘗試應對這些挑戰。我們構建了MRSDrama,首個多模態錄製的空間戲劇數據集,包含雙耳戲劇音頻、劇本、視頻、幾何姿態及文本提示。隨後,我們提出了ISDrama,首個通過多模態提示實現的沉浸式空間戲劇生成模型。ISDrama主要由以下部分組成:1)基於對比學習的多模態姿態編碼器,考慮移動說話者引起的多普勒效應,從多模態提示中提取統一的姿態信息。2)沉浸式戲劇Transformer,一種基於流的Mamba-Transformer模型,生成高質量戲劇,融入Drama-MOE以選擇合適專家,增強韻律與姿態控制。我們還設計了一種上下文一致的無分類器指導策略,以連貫生成完整戲劇。實驗結果顯示,ISDrama在客觀與主觀指標上均優於基準模型。演示與數據集可訪問https://aaronz345.github.io/ISDramaDemo。
在多跳问答(MHQA)任务中,检索增强生成(RAG)系统面临显著挑战,复杂查询需要跨多个文档片段综合信息。现有方法通常依赖于基于大语言模型(LLM)的迭代查询重写与路由,导致因重复调用LLM及多阶段处理而产生高计算成本。为应对这些局限,我们提出了TreeHop,一种无需LLM参与查询优化的嵌入级框架。TreeHop通过融合先前查询与检索文档的语义信息,动态更新查询嵌入,仅通过嵌入空间操作实现迭代检索。该方法以简化的“检索-嵌入-检索”循环取代了传统的“检索-重写-向量化-检索”流程,显著降低了计算开销。此外,引入基于规则的停止准则进一步剪枝冗余检索,平衡了效率与召回率。实验结果显示,TreeHop在三个开放域MHQA数据集上媲美先进的RAG方法,仅需5%-0.4%的模型参数量即可达到相当性能,并将查询延迟较并行方法减少约99%。这使得TreeHop成为部署于一系列知识密集型应用中的更快、更具成本效益的解决方案。为促进可复现性,代码与数据已公开于:https://github.com/allen-li1231/TreeHop。
當前基於人類回饋的強化學習(RLHF)流程,用於大型語言模型(LLM)對齊時,通常會為序列分配標量獎勵,並以最終的詞元作為整個序列品質的替代指標。然而,這種做法導致了稀疏的回饋和次優的詞元級別信用分配。在本研究中,我們將獎勵塑形框架為一個專注於詞元級別信用分配的優化問題。我們提出了一種獎勵塑形函數,利用可解釋性方法如SHAP和LIME,從獎勵模型中估計每個詞元的獎勵。為了學習此塑形函數的參數,我們採用了一個雙層優化框架,該框架結合了貝葉斯優化和策略訓練,以處理來自詞元獎勵估計的噪聲。我們的實驗表明,實現更好的詞元級別獎勵歸因平衡,能夠在下游任務上超越基線表現,並在訓練過程中更快地找到最優策略。此外,我們從理論上證明了,作為特徵加性歸因函數的可解釋性方法,能夠保持與原始獎勵相同的最優策略。
法律从业者,尤其是初入职场者,常面临复杂且高风险的任務,这些任务需要具备适应性和情境敏感性的推理能力。尽管人工智能在辅助法律工作方面展现出潜力,但当前的数据集和模型大多局限于孤立的子任务,未能涵盖现实实践中所需的端到端决策过程。为填补这一空白,我们推出了LawFlow,这是一个基于真实世界企业设立场景、由受过训练的法律学生完成的完整端到端法律工作流程数据集。与以往专注于输入输出对或线性思维链的数据集不同,LawFlow捕捉了动态、模块化及迭代的推理过程,反映了法律实践中存在的模糊性、修订需求及客户适应性策略。通过LawFlow,我们对比了人类与大型语言模型(LLM)生成的工作流程,揭示了在结构、推理灵活性及计划执行上的系统性差异。人类工作流程倾向于模块化和适应性,而LLM工作流程则更为顺序化、详尽且对下游影响不够敏感。我们的研究还表明,法律专业人士更倾向于让AI承担支持性角色,如头脑风暴、识别盲点及提出替代方案,而非执行复杂的端到端工作流程。基于这些发现,我们提出了一系列设计建议,这些建议根植于实证观察,旨在通过混合规划、适应性执行及决策点支持,使AI辅助与人类追求清晰、完整、创意及效率的目标相契合。我们的研究结果不仅凸显了LLM在支持复杂法律工作流程方面的现有局限,也为开发更具协作性、推理意识的法律AI系统指明了方向。所有数据与代码均可在我们的项目页面(https://minnesotanlp.github.io/LawFlow-website/)获取。
近期,在說話頭像生成(Talking Head Generation, THG)領域,透過擴散模型已實現了令人印象深刻的唇形同步與視覺品質;然而,現有方法在生成情感豐富的肖像時,難以同時保持說話者身份的一致性。我們發現當前情感說話頭像生成存在三個關鍵限制:對音頻固有情感線索的利用不足、情感表示中的身份洩露,以及情感關聯的孤立學習。為應對這些挑戰,我們提出了一種名為DICE-Talk的新框架,其核心思想是先將身份與情感解耦,再協同具有相似特徵的情感。首先,我們開發了一個解耦情感嵌入器,通過跨模態注意力聯合建模音視頻情感線索,將情感表示為與身份無關的高斯分佈。其次,我們引入了一個增強相關性的情感條件模塊,配備可學習的情感銀行,通過向量量化和基於注意力的特徵聚合,顯式捕捉情感間的關聯。第三,我們設計了一個情感判別目標,通過潛在空間分類在擴散過程中強制情感一致性。在MEAD和HDTF數據集上的大量實驗表明,我們的方法在情感準確性上優於現有最先進的方法,同時保持了競爭力的唇形同步性能。定性結果和用戶研究進一步證實了我們的方法能夠生成保留身份的肖像,這些肖像具有豐富且相關的情感表達,並能自然地適應未見過的身份。
思維鏈提示法在提升大型語言模型的推理能力方面展現了顯著成效。本研究探討如何利用這些增強後的推理能力,來提高大型語言模型在非純推理任務中的穩健性。具體而言,我們展示了一種名為防禦性思維鏈的簡單方法,僅需提供少量具有結構化防禦性推理的範例作為示範,就能使多種大型語言模型在面對參考資料損壞時表現出顯著提升的穩健性。從實證結果來看,這種方法帶來的改進令人驚嘆,尤其考慮到其簡易性和廣泛適用性。例如,在自然問答任務中,當提供的10個參考資料中有1個受到提示注入攻擊而損壞時,使用標準提示法的GPT-4o準確率從60%驟降至3%。相比之下,採用防禦性思維鏈提示法的GPT-4o則能保持50%的準確率。
我們研究了強化學習(RL)在自動駕駛特權規劃中的應用。目前針對此任務的頂尖方法基於規則,但這些方法無法應對長尾問題。相比之下,RL具有可擴展性,且不會像模仿學習那樣出現錯誤累積。當代用於駕駛的RL方法採用複雜的形狀獎勵,這些獎勵由多個單獨獎勵(如進度、位置或方向獎勵)加總而成。我們發現,當增加小批量大小時,PPO無法優化這些獎勵的流行版本,這限制了這些方法的可擴展性。因此,我們提出了一種新的獎勵設計,主要基於優化單一直觀的獎勵項:路線完成度。違規行為通過終止回合或乘法減少路線完成度來懲罰。我們發現,當使用我們設計的簡單獎勵進行訓練時,PPO在較高的小批量大小下表現良好,甚至提升了性能。使用大批量大小進行訓練,可以通過分佈式數據並行實現高效擴展。我們將PPO擴展到在CARLA中處理3億個樣本,在nuPlan中處理5億個樣本,僅使用單個8-GPU節點。最終模型在CARLA longest6 v2基準測試中達到64 DS,大幅領先於使用更複雜獎勵的其他RL方法。僅需對其在CARLA中的應用進行最小程度的適應,該方法便成為nuPlan上最佳的基於學習的方法。在Val14基準測試中,它在非反應性和反應性交通中的得分分別為91.3和90.6,同時比之前的工作快一個數量級。
本綜述系統性地分析了基於視覺-語言模型(VLMs)的三維物體檢測這一快速發展的領域,該領域位於三維視覺與多模態人工智慧的交叉點。通過審閱超過100篇研究論文,我們首次提供了專門針對視覺-語言模型的三維物體檢測的系統性分析。我們首先概述了視覺-語言模型在三維物體檢測中的獨特挑戰,強調了其在空間推理和數據複雜性方面與二維檢測的差異。傳統方法如點雲和體素網格與現代視覺-語言框架如CLIP和三維大語言模型(3D LLMs)進行了對比,後者支持開放詞彙檢測和零樣本泛化。我們回顧了關鍵的架構、預訓練策略以及提示工程方法,這些方法通過對齊文本和三維特徵來實現有效的基於視覺-語言模型的三維物體檢測。討論了可視化示例和評估基準,以展示其性能和行為。最後,我們指出了當前面臨的挑戰,如有限的三維-語言數據集和計算需求,並提出了未來研究方向,以推動基於視覺-語言模型的三維物體檢測的發展。>物體檢測,視覺-語言模型,智能體,VLMs,LLMs,人工智慧