每日精選AI研究論文及翻譯
大型語言模型(LLMs)代理在處理互動環境中的複雜任務方面變得日益重要。現有研究主要集中在通過從更強的專家進行行為克隆來提高性能,然而這類方法在現實應用中常常失敗,主要是由於無法從錯誤中恢復。然而,步級批評數據難以收集且成本高昂。因此,自動化並動態構建自我批評數據集對賦予模型智能代理能力至關重要。在這項工作中,我們提出了一個迭代自我訓練框架,名為Agent-R,它使語言代理能夠即時反思。Agent-R不同於傳統方法,該方法基於正確性獎勵或處罰行動,而是利用MCTS構建訓練數據,從錯誤的軌跡中恢復正確的軌跡。代理反思的一個關鍵挑戰在於及時修訂,而不是等到一次模擬結束。為了應對這一挑戰,我們引入了一個模型引導的批評構建機制:演員模型識別失敗軌跡中的第一個錯誤步驟(在其當前能力範圍內)。從該步驟開始,我們將其與相鄰的正確路徑拼接起來,這些路徑在樹中具有相同的父節點。這種策略使模型能夠根據其當前策略學習反思,從而實現更好的學習效率。為了進一步探索這種自我改進範式的可擴展性,我們研究了錯誤校正能力和數據集構建的迭代改進。我們的研究結果表明,Agent-R不斷提高了模型從錯誤中恢復的能力,並實現了及時的錯誤校正。在三個互動環境上的實驗表明,Agent-R有效地使代理能夠校正錯誤的行動,同時避免循環,實現了優於基準方法的性能(+5.59%)。
我們介紹了MMVU,這是一個全面的專家級多學科基準,用於評估視頻理解中的基礎模型。MMVU包括3,000個專家標註的問題,涵蓋了四個核心學科的27個主題:科學、醫療保健、人文社會科學和工程學。與以往的基準相比,MMVU具有三個關鍵進展。首先,它挑戰模型應用領域特定知識,進行專家級推理,分析專業領域的視頻,超越了當前視頻基準通常評估的基本視覺感知。其次,每個示例都是由人類專家從頭標註的。我們實施嚴格的數據質量控制,以確保數據集的高質量。最後,每個示例都富含專家標註的推理依據和相關領域知識,促進深入分析。我們對32個前沿多模基礎模型在MMVU上進行了廣泛評估。最新的System-2-capable模型,o1和Gemini 2.0 Flash Thinking,在測試模型中取得了最高性能。然而,它們仍然無法與人類專業知識匹敵。通過深入的錯誤分析和案例研究,我們為未來在專家級、知識密集型視頻理解專業領域的進一步發展提供了可操作的見解。
本文重新檢視在訓練混合專家模型(MoEs)時實施負載平衡損失(LBL)。具體而言,MoEs的LBL被定義為 N_E sum_{i=1}^{N_E} f_i p_i,其中 N_E 是專家的總數,f_i 代表選擇專家 i 的頻率,而 p_i 則表示專家 i 的平均閘控分數。現有的MoE訓練框架通常採用並行訓練策略,以便在微批次內計算 f_i 和LBL,然後在並行組中進行平均。實質上,用於訓練十億規模LLMs的微批次通常包含非常少的序列。因此,微批次的LBL幾乎達到序列級別,並且路由器被推動以在每個序列內均勻分配令牌。在這種嚴格的限制下,即使是來自特定領域序列(例如代碼)的令牌也會均勻路由到所有專家,從而抑制專家的專業化。在這項工作中,我們提出使用全局批次計算LBL以放寬此限制。由於全局批次包含比微批次更多樣化的序列,這將鼓勵在語料庫級別實現負載平衡。具體而言,我們引入額外的通信步驟來同步微批次間的 f_i,然後使用它來計算LBL。通過對基於MoEs的LLMs進行實驗(總參數高達42.8B,令牌數量達到400B),我們驚訝地發現全局批次的LBL策略在預訓練困惑度和下游任務中都取得了出色的性能增益。我們的分析顯示,全局批次的LBL還大大提高了MoE專家的領域專業化。
本文介紹了UI-TARS,一種本地GUI代理模型,僅將螢幕截圖視為輸入並執行類似人類的互動(例如鍵盤和滑鼠操作)。不同於依賴嚴重封裝商業模型(例如GPT-4o)並具有專家製作的提示和工作流程的主流代理框架,UI-TARS是一種端到端模型,優於這些複雜的框架。實驗證明了其優異表現:UI-TARS在評估感知、基礎和GUI任務執行的10多個GUI代理基準測試中實現了SOTA性能。值得注意的是,在OSWorld基準測試中,UI-TARS在50個步驟下達到了24.6的分數,在15個步驟下達到了22.7的分數,優於Claude(分別為22.0和14.9)。在AndroidWorld中,UI-TARS取得了46.6的分數,超越了GPT-4o(34.5)。UI-TARS融合了幾項關鍵創新:(1)增強感知:利用大規模GUI螢幕截圖數據集,實現對UI元素的上下文感知理解和精確標註;(2)統一動作建模,將動作標準化為跨平台統一空間,通過大規模動作跟踪實現精確基礎和互動;(3)System-2推理,將深思熟慮的推理納入多步決策制定中,涉及多種推理模式,如任務分解、反思思考、里程碑識別等;(4)反思式在線跟踪的迭代訓練,通過在數百個虛擬機器上自動收集、過濾和反思性地完善新的互動跟踪,解決了數據瓶頸問題。通過迭代訓練和反思調整,UI-TARS不斷從錯誤中學習,並在最小程度的人為干預下適應未知情況。我們還分析了GUI代理的演進路徑,以指導該領域的進一步發展。
我們提出了TokenVerse - 一種多概念個性化方法,利用預先訓練的文本到圖像擴散模型。我們的框架可以從僅一個圖像中解開複雜的視覺元素和屬性,同時實現從多個圖像中提取的概念組合的無縫插入和生成。與現有作品不同,TokenVerse 可以處理具有多個概念的多個圖像,並支持包括物體、配件、材料、姿勢和照明在內的各種概念。我們的工作利用了基於DiT的文本到圖像模型,其中輸入文本通過注意力和調制(移位和縮放)影響生成。我們觀察到調制空間是語義的,並且可以對複雜概念進行局部控制。基於這一洞察,我們設計了一個基於優化的框架,該框架以圖像和文本描述作為輸入,並為每個單詞找到調制空間中的不同方向。然後可以使用這些方向來生成以所需配置結合學習概念的新圖像。我們展示了TokenVerse 在具有挑戰性的個性化設置中的有效性,並展示了它相對於現有方法的優勢。項目網頁位於 https://token-verse.github.io/
儘管大型視覺語言模型(LVLMs)在視覺理解方面表現出色,但偶爾會生成不正確的輸出。儘管利用強化學習或測試時縮放的獎勵模型(RMs)有望提高生成質量,但仍存在一個關鍵差距:LVLMs的多模態RMs公開可用性有限,專有模型的實施細節通常不清楚。我們通過InternLM-XComposer2.5-Reward(IXC-2.5-Reward)來彌補這一差距,這是一個簡單而有效的多模態獎勵模型,可使LVLMs與人類偏好保持一致。為確保IXC-2.5-Reward的穩健性和多功能性,我們建立了一個高質量的多模態偏好語料庫,跨越文本、圖像和視頻輸入,涵蓋指令遵循、一般理解、文本豐富文件、數學推理和視頻理解等多個領域。IXC-2.5-Reward在最新的多模態獎勵模型基準上取得了出色的結果,並在僅文本獎勵模型基準上表現出競爭力。我們進一步展示了IXC-2.5-Reward的三個關鍵應用:(1)為RL訓練提供監督信號。我們將IXC-2.5-Reward與Proximal Policy Optimization(PPO)結合,產生IXC-2.5-Chat,在指令遵循和多模態開放式對話中展示出持續改進;(2)從候選回應中選擇最佳回應以進行測試時縮放;以及(3)從現有圖像和視頻指令調整訓練數據中過濾異常或噪聲樣本。為確保可重現性並促進進一步研究,我們已在https://github.com/InternLM/InternLM-XComposer 上開源了所有模型權重和訓練配方。
我們介紹了Hunyuan3D 2.0,這是一個先進的大規模3D合成系統,用於生成高分辨率紋理化的3D資產。該系統包括兩個基礎組件:一個大規模形狀生成模型--Hunyuan3D-DiT,以及一個大規模紋理合成模型--Hunyuan3D-Paint。形狀生成模型建立在可擴展的基於流的擴散轉換器上,旨在創建與給定條件圖像恰當對齊的幾何形狀,為下游應用奠定堅實基礎。紋理合成模型受益於強大的幾何和擴散先驗知識,為生成或手工製作的網格生成高分辨率和生動的紋理貼圖。此外,我們建立了Hunyuan3D-Studio--一個多功能且用戶友好的生產平台,簡化了3D資產的重新創建過程。它使專業和業餘用戶能夠高效地操作甚至動畫化他們的網格。我們系統地評估了我們的模型,顯示Hunyuan3D 2.0在幾何細節、條件對齊、紋理質量等方面優於先前的最先進模型,包括開源模型和封閉源模型。Hunyuan3D 2.0公開發布,以填補開源3D社區中大規模基礎生成模型的空白。我們的模型代碼和預訓練權重可在以下網址獲得:https://github.com/Tencent/Hunyuan3D-2
推理語言模型(RLMs),又稱為大型推理模型(LRMs),如OpenAI的o1和o3、DeepSeek-V3以及阿里巴巴的QwQ,通過擴展大型語言模型(LLMs)並加入先進的推理機制,重新定義了人工智慧的問題解決能力。然而,它們高昂的成本、專有性質和複雜的架構 - 獨特地結合了強化學習(RL)、搜索啟發式和LLMs - 提出了可及性和可擴展性挑戰。為了應對這些挑戰,我們提出了一項全面的藍圖,將RLM組件組織成模塊化框架,基於對所有RLM作品的調查和分析。該藍圖納入了多樣的推理結構(鏈、樹、圖和嵌套形式)、推理策略(例如蒙特卡羅樹搜索、束搜索)、RL概念(策略、價值模型等)和監督方案(基於輸出和基於過程的監督)。我們還提供了詳細的數學公式和算法規範,以簡化RLM的實施。通過展示像LLaMA-Berry、QwQ、Journey Learning和Graph of Thoughts這樣的方案如何適用作為特殊情況,我們展示了藍圖的多功能性和統一潛力。為了說明其實用性,我們引入了x1,這是一個用於快速RLM原型設計和實驗的模塊化實現。利用x1和文獻回顧,我們提供了關鍵見解,例如對策略和價值模型進行多階段訓練的重要性,以及熟悉訓練分佈的重要性。最後,我們概述了RLMs如何與更廣泛的LLM生態系統集成,包括工具和數據庫。我們的工作揭開了RLM構建的神秘面紗,使先進的推理能力民主化,並促進創新,旨在通過降低RLM開發和實驗的障礙,緩解“富裕AI”和“貧窮AI”之間的差距。
智能手機已成為現代生活中不可或缺的一部分,然而在移動設備上處理複雜任務通常仍然令人沮喪。基於大型多模型(LMM)的移動代理的最新進展已經證明了其在感知和行動方面在移動環境中的能力。然而,目前的方法面臨著重大限制:它們在應對現實世界人類需求方面表現不佳,難以應對需要推理和長期規劃的任務,並且缺乏從先前經驗中學習和改進的機制。為了克服這些挑戰,我們引入了Mobile-Agent-E,這是一個能夠通過過去經驗自我進化的分層多代理框架。所謂分層,是指將高層次計劃和低層次行動執行明確區分開來。該框架包括一個經理,負責通過將複雜任務分解為子目標來制定整體計劃,以及四個下級代理——感知器、操作器、行動反射器和記錄員——分別處理細粒度的視覺感知、即時行動執行、錯誤驗證和信息聚合。Mobile-Agent-E還具有一個新穎的自我進化模塊,該模塊維護一個包含提示和快捷方式的持久長期記憶。提示是關於如何有效與環境互動的一般指導和從先前任務中學到的教訓。快捷方式是針對特定子程序量身定制的可重用的可執行原子操作序列。提示和快捷方式的加入有助於在性能和效率上持續改進。除了這個框架,我們還引入了Mobile-Eval-E,這是一個新的基準測試,包括需要長期規劃和多應用程序交互的複雜移動任務。實證結果顯示,Mobile-Agent-E在三個基礎模型骨幹上實現了比先前最先進方法高出22%的絕對改進。項目頁面:https://x-plug.github.io/MobileAgent。
由大型語言模型(LLMs)驅動的自主代理具有增強人類能力的潛力,可協助從發送電子郵件到執行數據分析等數字任務。現有LLMs在這些任務上的能力常常受制於與其互動的環境缺乏高質量的代理數據。我們提出了Learn-by-interact,這是一個以數據為中心的框架,可使LLM代理適應任何給定環境而無需人類標註。Learn-by-interact根據文檔合成代理-環境互動的軌跡,並通過總結或提取互動歷史構建指令,這一過程稱為反向構建。我們通過在基於訓練的情景和基於訓練的無上下文學習(ICL)中使用合成數據來評估其質量,在其中我們為代理設計了針對性的創新檢索方法。跨越現實編碼、Web和桌面環境的SWE-bench、WebArena、OSWorld和Spider2-V的大量實驗顯示了Learn-by-interact在各種下游代理任務中的有效性--對於ICL,Claude-3.5的基線結果提高了最高達12.2%,而對於Codestral-22B的訓練提高了19.5%。我們進一步展示了反向構建的關鍵作用,為訓練提供了高達14.0%的改善。我們的消融研究展示了我們在ICL中提供的合成數據的效率,以及我們的檢索管道相對於傳統的檢索增強生成(RAG)等替代方法的優越性。我們預期Learn-by-interact將作為代理數據合成的基礎,隨著LLMs在真實世界環境中的部署越來越廣泛。
Depth Anything 在單眼深度估計方面取得了顯著成功,具有強大的泛化能力。然而,在視頻中存在時間不一致性,阻礙了其實際應用。為了緩解這個問題,提出了各種方法,通過利用視頻生成模型或引入光流和相機姿勢的先驗來實現。然而,這些方法僅適用於短視頻(< 10秒),並需要在質量和計算效率之間取得平衡。我們提出了Video Depth Anything,用於在超長視頻(幾分鐘以上)中進行高質量、一致的深度估計,而不會犧牲效率。我們基於Depth Anything V2 模型,將其頭部替換為高效的時空頭部。我們設計了一個簡單而有效的時間一致性損失,通過限制時間深度梯度,消除了對額外幾何先驗的需求。該模型在視頻深度和未標記圖像的聯合數據集上進行訓練,與Depth Anything V2 相似。此外,還開發了一種基於關鍵幀的長視頻推斷策略。實驗表明,我們的模型可以應用於任意長度的視頻,而不會影響質量、一致性或泛化能力。在多個視頻基準測試上進行的全面評估表明,我們的方法在零樣本視頻深度估計方面設立了新的技術水準。我們提供不同規模的模型,以支持各種場景,我們最小的模型能夠以30 FPS 的實時性能運行。
生成建模旨在將隨機噪音轉換為結構化輸出。在這項工作中,我們通過允許運動控制通過結構化潛在噪音抽樣來增強視頻擴散模型。這是通過僅改變數據來實現的:我們對訓練視頻進行預處理以產生結構化噪音。因此,我們的方法對擴散模型設計是不可知的,無需更改模型架構或訓練流程。具體來說,我們提出了一種新穎的噪音扭曲算法,足夠快速運行以實時替換隨機時間高斯性,該高斯性來自光流場中導出的相關扭曲噪音,同時保留空間高斯性。我們算法的效率使我們能夠使用扭曲噪音微調現代視頻擴散基模型,並提供廣泛的用戶友好運動控制一站式解決方案:局部對象運動控制、全局攝像機運動控制和運動轉移。在我們的扭曲噪音中時間一致性和空間高斯性之間的和諧性導致有效的運動控制,同時保持每幀像素質量。廣泛的實驗和用戶研究證明了我們方法的優勢,使其成為控制視頻擴散模型中運動的堅固且可擴展的方法。視頻結果可在我們的網頁上找到:https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow。源代碼和模型檢查點可在GitHub上找到:https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow。
我們展示了照片元數據中包含的GPS標籤為圖像生成提供了一個有用的控制信號。我們訓練了GPS到圖像的模型並將其應用於需要對城市內圖像變化有細緻理解的任務。特別是,我們訓練了一個擴散模型,以GPS和文本為條件生成圖像。學習的模型生成了捕捉不同社區、公園和地標獨特外觀的圖像。我們還通過得分蒸餾抽樣從2D GPS到圖像模型中提取3D模型,使用GPS條件來限制從每個視角重建的外觀。我們的評估表明,我們的GPS條件模型成功地學習生成根據位置變化的圖像,並且GPS條件改善了對3D結構的估計。
監督微調(SFT)數據的質量對提升大型語言模型(LLM)的對話能力至關重要。然而,隨著LLM變得更加先進,高質量的人工標註SFT數據的可用性已成為一個重要瓶頸,迫使更多依賴合成訓練數據。在這項工作中,我們介紹了Condor,一種新型的兩階段合成數據生成框架,該框架融合了世界知識樹和自我反思精煉,以大規模生成高質量的SFT數據。我們的實驗結果表明,只在20K個Condor生成樣本上進行微調的基礎模型表現優異,勝過同行。Condor中的額外精煉階段進一步實現了LLM在不同規模(高達72B)上的迭代自我改進,驗證了我們方法的有效性。此外,我們對後訓練中合成數據的規模化研究揭示了性能改進的巨大潛力,為未來研究開啟了有前途的途徑。
本文提出了一種新穎的音頻驅動的說話頭部方法,能夠同時生成高度表現豐富的面部表情和手勢。與現有方法專注於生成全身或半身姿勢不同,我們研究了共語手勢生成的挑戰,並確定音頻特徵與全身手勢之間的薄弱對應是一個關鍵限制。為了應對這一問題,我們將任務重新定義為一個兩階段過程。在第一階段,我們直接從音頻輸入生成手部姿勢,利用音頻信號與手部運動之間的強相關性。在第二階段,我們採用擴散模型合成視頻幀,將第一階段生成的手部姿勢納入,以產生逼真的面部表情和身體動作。我們的實驗結果表明,所提出的方法在視覺質量和同步精度方面優於CyberHost和Vlogger等最先進的方法。這項工作為音頻驅動的手勢生成提供了新的視角,並提供了一個強大的框架,用於創建富有表現力和自然的說話頭部動畫。
我們介紹了MAGI,一個混合視頻生成框架,結合了遮罩建模用於幀內生成和因果建模用於下一幀生成。我們的關鍵創新是完整教師強制(CTF),將遮罩幀條件設置為完整觀察幀而不是遮罩幀(即遮罩教師強制,MTF),從而實現從令牌級(補丁級)到幀級自回歸生成的平滑過渡。CTF明顯優於MTF,在首幀條件視頻預測的FVD分數上實現了+23%的改進。為解決曝光偏差等問題,我們採用了有針對性的訓練策略,在自回歸視頻生成方面設定了新的基準。實驗表明,即使在僅訓練16幀的情況下,MAGI也能生成超過100幀的長篇、連貫的視頻序列,突顯了其在可擴展、高質量視頻生成方面的潛力。
我們研究了在Transformer模型中,token嵌入的幾何形狀與其在下一個token預測中的角色之間的關係。這種關聯的一個重要方面使用了實驗性測度的概念,該測度編碼了token點雲在Transformer層之間的分佈,並推動了token表示在均場交互圖像中的演變。我們使用內在維度、鄰域重疊和餘弦相似性等指標,觀察地探測這些實驗性測度在各層之間的情況。為了驗證我們的方法,我們將這些指標與一組tokens被打亂的數據集進行比較,這擾亂了句法和語義結構。我們的研究結果顯示了token嵌入的幾何特性與下一個token預測的交叉熵損失之間的相關性,這意味著損失值較高的提示具有在更高維空間中表示的tokens。
視覺語言模型(VLMs)處理圖像和文本輸入,逐漸整合到聊天助手和其他消費者人工智慧應用中。然而,若缺乏適當的保障措施,VLMs可能提供有害建議(例如如何自我傷害)或鼓勵不安全行為(例如使用毒品)。儘管存在明顯的危險,迄今為止很少有研究評估VLM的安全性以及多模態輸入帶來的新風險。為填補這一空白,我們引入MSTS,一個針對VLMs的多模態安全測試套件。MSTS包含40個細粒度危害類別中的400個測試提示。每個測試提示由文本和圖像組成,只有結合在一起才能揭示完整的不安全含義。通過MSTS,我們發現幾個開放式VLM中存在明顯的安全問題。我們還發現一些VLM之所以安全,純屬意外,因為它們甚至無法理解簡單的測試提示。我們將MSTS翻譯成十種語言,展示非英語提示以提高不安全模型回應的比例。我們還展示,與多模態提示相比,僅使用文本進行測試時,模型更安全。最後,我們探索VLM安全評估的自動化,發現即使是最佳的安全分類器也存在不足。
個性化新聞標題生成旨在為用戶提供符合其偏好的引人注目標題。目前的方法著重於用戶導向的內容偏好,但大多數忽略了多樣的風格偏好對用戶全面興趣的重要性,導致個性化效果不佳。鑑此,我們提出了一個新穎的風格-內容感知個性化標題生成(SCAPE)框架。SCAPE利用大型語言模型(LLM)協作從標題中提取內容和風格特徵。它進一步通過對比學習為基礎的階層融合網絡,適應性地整合用戶的長期和短期興趣。通過將全面興趣融入標題生成器中,SCAPE在生成過程中反映了用戶的風格-內容偏好。對真實世界數據集PENS進行的大量實驗證明了SCAPE相對於基準方法的優越性。
大視覺語言模型(LVLMs)展現了卓越的能力,能夠理解和描述視覺內容,在各種視覺語言任務中實現了最先進的性能。然而,這些模型經常表現出幻覺行為,即生成包含輸入圖像中不存在的物體或細節的描述。我們的研究通過分析變壓器層和注意力頭之間的注意力模式,揭示了幻覺通常源於在更深層次中視覺基礎的逐漸退化。我們提出了一種新穎的注意力修改方法,結合選擇性標記強調和頭部特定調節,以在生成過程中保持視覺基礎。我們的方法引入了兩個關鍵組件:(1)一種雙流標記選擇機制,識別並優先考慮具有局部信息和空間重要性的視覺標記,以及(2)一種注意力頭特定調節策略,根據個別注意力頭的視覺敏感度來差異性地放大視覺信息處理。通過對MSCOCO數據集的大量實驗,我們展示了我們的方法將幻覺率降低了高達62.3%,而與基準模型相比保持了可比的任務性能。我們的分析表明,通過有選擇性地調節具有不同視覺敏感度水平的注意力頭之間的標記,可以顯著改善視覺基礎,而無需重新訓練模型。