每日精選AI研究論文及翻譯
受DeepSeek-R1通过基于规则的强化学习(RL)成功激发推理能力的启发,我们推出了Video-R1,作为首次系统探索R1范式以激发多模态大语言模型(MLLMs)视频推理能力的尝试。然而,直接将GRPO算法应用于视频推理的RL训练面临两大挑战:(i) 缺乏对视频推理的时间建模,以及(ii) 高质量视频推理数据的稀缺。为解决这些问题,我们首先提出了T-GRPO算法,该算法鼓励模型利用视频中的时间信息进行推理。此外,我们不仅依赖视频数据,还将高质量的图像推理数据纳入训练过程。我们构建了两个数据集:用于SFT冷启动的Video-R1-COT-165k和用于RL训练的Video-R1-260k,两者均包含图像和视频数据。实验结果表明,Video-R1在视频推理基准测试如VideoMMMU和VSI-Bench,以及包括MVBench和TempCompass等通用视频基准测试上均取得了显著提升。值得注意的是,Video-R1-7B在视频空间推理基准测试VSI-bench上达到了35.8%的准确率,超越了商业专有模型GPT-4o。所有代码、模型和数据均已公开。
智能代理時代已然來臨,這是由大型語言模型的革命性進展所驅動的。具備目標導向行為與動態適應能力的大型語言模型(LLM)代理,可能代表了邁向人工通用智能的一條關鍵路徑。本綜述通過以方法論為中心的分類體系,系統地解構了LLM代理系統,將架構基礎、協作機制與演化路徑相互關聯。我們揭示了代理設計原則與其在複雜環境中湧現行為之間的基本聯繫,從而統一了分散的研究脈絡。我們的工作提供了一個統一的架構視角,考察了代理如何構建、如何協作以及如何隨時間演進,同時也探討了評估方法、工具應用、實際挑戰及多樣化的應用領域。通過綜述這一快速發展領域的最新進展,我們為研究者提供了一個理解LLM代理的結構化分類體系,並指明了未來研究的有望方向。相關文獻集可在https://github.com/luo-junyu/Awesome-Agent-Papers獲取。
近期發表的DeepSeek-R1展示了通過基於規則獎勵的強化學習(RL)在大型語言模型(LLMs)中推理能力的湧現。基於這一理念,我們首次探索了基於規則的強化學習如何提升多模態大型語言模型(MLLMs)在圖形用戶界面(GUI)動作預測任務中的推理能力。為此,我們精心構建了一個小而高質量的數據集,包含136個具有挑戰性的任務,涵蓋了移動設備上的五種常見動作類型。我們還引入了一種統一的基於規則的動作獎勵機制,使得模型能夠通過基於策略的算法(如群體相對策略優化,GRPO)進行優化。實驗結果表明,我們提出的數據高效模型UI-R1-3B在域內(ID)和域外(OOD)任務上均取得了顯著提升。具體而言,在域內基準測試AndroidControl上,動作類型準確率提升了15%,而定位準確率提高了10.3%,相較於基礎模型(即Qwen2.5-VL-3B)。在域外GUI定位基準測試ScreenSpot-Pro上,我們的模型超越了基礎模型6.0%,並與通過監督微調(SFT)在76K數據上訓練的更大模型(如OS-Atlas-7B)表現相當。這些結果凸顯了基於規則的強化學習在推進GUI理解與控制方面的潛力,為該領域的未來研究鋪平了道路。
近年來,大型推理模型的快速發展導致現有數學推理評估基準趨於飽和,凸顯出對更具挑戰性和嚴謹性評估框架的迫切需求。為填補這一空白,我們推出了OlymMATH,一個全新的奧林匹克級數學基準,旨在嚴格測試大型語言模型(LLMs)的複雜推理能力。OlymMATH包含200道精心挑選的題目,每道題目均經過人工驗證,並提供平行中英文版本。這些題目系統性地分為兩個不同的難度層次:(1) AIME級別題目(易),為數學推理評估建立基礎;(2) 更具挑戰性的題目(難),旨在突破當前最先進模型的極限。在我們的基準中,這些題目涵蓋四個核心數學領域,每道題目均包含可驗證的數值解,以支持客觀、基於規則的評估。實證結果表明,OlymMATH帶來了顯著的挑戰,包括DeepSeek-R1和OpenAI的o3-mini在內的最先進模型在難題子集上的準確率明顯受限。此外,該基準促進了數學推理能力的全面雙語評估——這一關鍵維度在主流數學推理基準中仍未被充分解決。我們在STILL項目中發布了OlymMATH基準:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。
影片生成技術已取得顯著進展,從產出不真實的結果,演進到能夠生成視覺上令人信服且時間上連貫的影片。為了評估這些影片生成模型,已開發出如VBench等基準測試,用以衡量其忠實度,包括每幀美學、時間一致性及基本提示遵循等因素。然而,這些方面主要代表表層的忠實度,關注的是影片是否在視覺上令人信服,而非是否遵循現實世界的原則。儘管近期模型在這些指標上表現越來越好,它們仍難以生成不僅視覺上合理,而且根本上真實的影片。要通過影片生成實現真正的「世界模型」,下一個前沿在於內在的忠實度,確保生成的影片遵循物理定律、常識推理、解剖學正確性及構圖完整性。達到這種層次的真實性對於AI輔助電影製作及模擬世界建模等應用至關重要。為彌補這一差距,我們推出了VBench-2.0,這是一個旨在自動評估影片生成模型內在忠實度的新一代基準測試。VBench-2.0評估五個關鍵維度:人類逼真度、可控性、創造力、物理性及常識性,每個維度進一步細分為精細的能力。針對各個維度,我們的評估框架整合了如最先進的視覺語言模型(VLMs)和大型語言模型(LLMs)等通才,以及專為影片生成提出的異常檢測方法等專才。我們進行了廣泛的註釋,以確保與人類判斷的一致性。通過超越表層忠實度,邁向內在忠實度,VBench-2.0旨在為追求內在忠實度的下一代影片生成模型設定新標準。
大型推理模型(LRMs)展現了卓越的推理能力,但主要依賴於參數化知識,這限制了其事實準確性。儘管近期研究為基於強化學習(RL)的LRMs配備了檢索能力,這些模型仍存在過度思考及推理缺乏魯棒性的問題,降低了其在問答(QA)任務中的效能。為解決此問題,我們提出了ReaRAG,這是一個增強事實性的推理模型,它能在不過度迭代的情況下探索多樣化的查詢。我們的解決方案包括一個新穎的數據構建框架,該框架對推理鏈長度設定了上限。具體而言,我們首先利用LRM生成深思熟慮的思考,然後從預定義的行動空間(搜索與完成)中選擇一個行動。對於搜索行動,會對RAG引擎執行查詢,其結果作為觀察返回,以指導後續的推理步驟。此過程迭代進行,直到選擇完成行動為止。得益於ReaRAG強大的推理能力,我們的方法在多跳QA任務上超越了現有的基準。進一步的分析凸顯了其強大的反思能力,能夠識別錯誤並精煉其推理軌跡。我們的研究在增強LRMs事實性的同時,有效地整合了檢索增強生成(RAG)的魯棒推理。
我們推出LeX-Art,這是一套全面的高品質文本-圖像合成工具,系統性地彌合了提示表達力與文本渲染保真度之間的差距。我們的方法遵循數據中心的範式,基於Deepseek-R1構建了一個高品質的數據合成管道,以策展LeX-10K,這是一個包含10K張高分辨率、美學精緻的1024×1024圖像的數據集。除了數據集構建之外,我們還開發了LeX-Enhancer,這是一個強大的提示增強模型,並訓練了兩個文本到圖像模型,LeX-FLUX和LeX-Lumina,實現了最先進的文本渲染性能。為了系統性地評估視覺文本生成,我們引入了LeX-Bench,這是一個評估保真度、美學和對齊性的基準,並輔以配對歸一化編輯距離(PNED),這是一種用於穩健文本準確性評估的新穎指標。實驗結果顯示了顯著的改進,LeX-Lumina在CreateBench上實現了79.81%的PNED增益,而LeX-FLUX在顏色(+3.18%)、位置(+4.45%)和字體準確性(+3.81%)方面均優於基線。我們的代碼、模型、數據集和演示均已公開提供。
實時互動視頻聊天肖像已被日益視為未來趨勢,這尤其得益於文本和語音聊天技術的顯著進步。然而,現有方法主要集中於實時生成頭部動作,但在產生與這些頭部動作同步的身體運動方面仍存在困難。此外,實現對說話風格和面部表情細微變化的精細控制仍是一大挑戰。為解決這些限制,我們提出了一種新穎的框架,用於生成風格化的實時肖像視頻,從而實現從說話頭像到上半身互動的富有表現力和靈活的視頻聊天。我們的方法包含以下兩個階段。第一階段涉及高效的層次化運動擴散模型,該模型基於音頻輸入考慮了顯式和隱式的運動表示,能夠生成多樣化的面部表情,並實現頭部與身體運動的風格化控制與同步。第二階段旨在生成包含上半身動作(包括手勢)的肖像視頻。我們向生成器注入顯式的手部控制信號,以產生更為細緻的手部動作,並進一步進行面部精修,以增強肖像視頻的整體真實感和表現力。此外,我們的方法支持在4090 GPU上以最高512*768分辨率和最高30fps的效率持續生成上半身肖像視頻,從而支持實時的互動視頻聊天。實驗結果表明,我們的方法能夠生成具有豐富表現力和自然上半身動作的肖像視頻。
我們推出Lumina-Image 2.0,這是一個先進的文本到圖像生成框架,相比前作Lumina-Next取得了顯著進展。Lumina-Image 2.0基於兩大核心原則構建:(1) 統一性——它採用了一種統一架構(Unified Next-DiT),將文本與圖像標記視為聯合序列處理,促進了自然的跨模態交互,並支持任務的無縫擴展。此外,鑑於高質量的描述生成器能提供語義高度對齊的文本-圖像訓練對,我們引入了一個專為T2I生成任務設計的統一描述系統——Unified Captioner(UniCap)。UniCap擅長生成全面且準確的描述,加速了模型收斂並增強了對提示的遵循度。(2) 效率——為了提升所提出模型的效率,我們開發了多階段漸進式訓練策略,並引入了不損害圖像質量的推理加速技術。在學術基準測試和公開的文本到圖像競技場上的廣泛評估表明,Lumina-Image 2.0即使僅擁有26億參數,也能展現出強大的性能,凸顯了其可擴展性和設計效率。我們已在https://github.com/Alpha-VLLM/Lumina-Image-2.0上公開了訓練細節、代碼及模型。
近期深度思維模型的進展在數學和編程任務上展現了卓越的推理能力。然而,在需要通過圖像-動作交織軌跡與環境持續互動的具身領域,其有效性仍未被充分探索。我們提出了具身推理器(Embodied Reasoner),該模型將o1風格的推理擴展到互動式具身搜索任務中。與主要依賴邏輯推導的數學推理不同,具身場景需要空間理解、時間推理以及基於互動歷史的持續自我反思。為應對這些挑戰,我們合成了9.3k條連貫的觀察-思考-動作軌跡,包含64k張互動圖像和90k種多樣化的思維過程(分析、空間推理、反思、規劃和驗證)。我們開發了一個三階段訓練管道,通過模仿學習、拒絕採樣引導的自我探索以及反思調優實現的自我校正,逐步提升模型能力。評估結果顯示,我們的模型顯著超越了那些先進的視覺推理模型,例如,它分別超過OpenAI的o1、o3-mini和Claude-3.7達+9%、24%和+13%。分析表明,我們的模型展現出更少的重複搜索和邏輯不一致性,在複雜的長時程任務中尤具優勢。在真實環境中,我們的模型同樣表現出優越性,同時展現出更少的重複搜索和邏輯不一致情況。
大型語言模型(LLMs)已展現出輔助科學研究的潛力,然而,由於缺乏專用的基準測試,其發現高質量研究假設的能力尚未得到檢驗。為填補這一空白,我們引入了首個大規模基準,用於評估LLMs在科學發現中近乎完備的子任務集:靈感檢索、假設構建和假設排序。我們開發了一個自動化框架,從12個學科的科學論文中提取關鍵要素——研究問題、背景調查、靈感和假設,並通過專家驗證確認其準確性。為防止數據污染,我們僅專注於2024年發表的論文,確保與LLM預訓練數據的重疊最小。我們的評估顯示,LLMs在檢索靈感這一分佈外任務上表現出色,表明其能夠揭示新穎的知識關聯。這將LLMs定位為“研究假設礦場”,能夠通過大規模生成創新假設,以最少的人為干預推動自動化科學發現。
音頻大型語言模型(AudioLLMs)已獲得廣泛關注,並在對話、音頻理解及自動語音識別(ASR)等音頻任務上顯著提升了性能。儘管取得了這些進展,目前仍缺乏一個基準來評估AudioLLMs在金融場景中的表現,其中如收益電話會議和CEO演講等音頻數據,是金融分析和投資決策的關鍵資源。本文中,我們介紹了FinAudio,這是首個旨在評估AudioLLMs在金融領域能力的基準。我們首先根據金融領域的獨特特性定義了三項任務:1)短金融音頻的ASR,2)長金融音頻的ASR,以及3)長金融音頻的摘要生成。隨後,我們分別策劃了兩個短音頻和兩個長音頻數據集,並開發了一個新穎的金融音頻摘要數據集,共同構成了FinAudio基準。接著,我們在FinAudio上評估了七種流行的AudioLLMs。我們的評估揭示了現有AudioLLMs在金融領域的局限性,並為改進AudioLLMs提供了見解。所有數據集和代碼將被公開。
我們探討如何利用源自計算機圖形管線的合成視頻來提升視頻生成模型的物理真實感。這些渲染的視頻遵循現實世界的物理規律,例如保持三維一致性,並作為一種寶貴資源,有可能改進視頻生成模型。為挖掘這一潛力,我們提出了一種解決方案,該方案精心策劃並整合合成數據,同時引入了一種方法,將這些數據的物理真實感轉移到模型中,從而顯著減少不想要的偽影。通過在三個強調物理一致性的代表性任務上的實驗,我們證明了其在增強物理真實感方面的有效性。儘管我們的模型仍缺乏對物理的深入理解,但我們的工作提供了首批實證之一,表明合成視頻能夠提升視頻合成中的物理真實感。網站:https://kevinz8866.github.io/simulation/
擴散模型在生成質量上表現卓越,但由於次優的步長離散化,其採樣過程計算密集。現有研究主要集中於優化去噪方向,而我們則著眼於步長調度的原則性設計。本文提出最優步長蒸餾,這是一個動態規劃框架,通過從參考軌跡中提取知識來獲得理論上最優的調度方案。通過將步長優化重新表述為遞歸誤差最小化,我們的方法利用最優子結構特性,確保了全局離散化界限。關鍵在於,蒸餾出的調度方案在架構、ODE求解器和噪聲調度上展現出強大的魯棒性。實驗表明,文本到圖像生成速度提升了10倍,同時在GenEval上保持了99.4%的性能。我們的代碼可在https://github.com/bebebe666/OptimalSteps獲取。
近年來,視頻生成領域取得了顯著進展,尤其是隨著擴散模型的快速發展。然而,這些模型在物理認知方面的不足逐漸受到廣泛關注——生成的內容常常違背基本物理定律,陷入「視覺真實但物理荒謬」的困境。研究人員開始日益認識到物理逼真度在視頻生成中的重要性,並嘗試將運動表徵和物理知識等啟發式物理認知整合到生成系統中,以模擬真實世界的動態場景。考慮到該領域缺乏系統性的綜述,本調查旨在提供架構設計及其應用的全面總結,以填補這一空白。具體而言,我們從認知科學的角度討論並梳理了視頻生成中物理認知的演進過程,同時提出了一個三層分類法:1)面向生成的基本圖式感知,2)面向生成的物理知識被動認知,以及3)面向世界模擬的主動認知,涵蓋了最先進的方法、經典範式和基準測試。隨後,我們強調了該領域固有的關鍵挑戰,並勾勒了未來研究的潛在路徑,為學術界和工業界的討論前沿做出貢獻。通過結構化回顧和跨學科分析,本調查旨在為開發可解釋、可控且物理一致的視頻生成範式提供方向性指導,從而推動生成模型從「視覺模仿」階段邁向「類人物理理解」的新階段。
開放詞彙語義分割模型通過將視覺與文本相結合,利用文本查詢來標記來自未定義類別集合的像素,從而在新數據集上展現出多功能的性能。然而,訓練與測試領域之間的大幅差異會降低其性能,這要求進行微調以實現有效的現實應用。我們引入了語義庫適應(SemLA),這是一種新穎的無訓練、測試時領域適應框架。SemLA利用基於LoRA的適配器庫,這些適配器通過CLIP嵌入進行索引,並根據與目標領域在嵌入空間中的接近度動態合併最相關的適配器。這種方法構建了一個針對每個特定輸入的臨時模型,無需額外訓練。我們的方法高效擴展,通過跟踪適配器的貢獻增強了可解釋性,並從本質上保護了數據隱私,使其成為敏感應用的理想選擇。在基於10個標準數據集構建的20個領域基準上進行的全面實驗表明,SemLA在多樣化設置中展現出卓越的適應性和性能,為開放詞彙語義分割的領域適應樹立了新標準。
多模態生成模型能夠理解和跨越多種模態進行生成,目前主要由自迴歸(AR)方法主導,這些方法從左到右或從上到下依次處理標記。這些模型共同處理圖像、文本、視頻和音頻,用於各種任務,如圖像描述、問答和圖像生成。在本研究中,我們探索離散擴散模型作為聯合文本和圖像領域的統一生成框架,基於其在文本生成中的最新成功。離散擴散模型相比AR模型具有多項優勢,包括對生成樣本質量與多樣性的更好控制、能夠執行聯合多模態修補(跨越文本和圖像領域),以及通過指導實現更強的生成可控性。利用這些優勢,我們提出了首個統一多模態離散擴散(UniDisc)模型,該模型能夠聯合理解和生成文本和圖像,適用於多種下游任務。我們將UniDisc與多模態AR模型進行比較,進行了規模分析,並證明UniDisc在性能和推理時間計算、增強的可控性、可編輯性、修補能力以及推理時間與生成質量之間的靈活權衡方面均優於它們。代碼和更多可視化內容可在https://unidisc.github.io獲取。
本論文介紹了ZJUKLAB團隊針對SemEval-2025任務4:從大型語言模型中消除敏感內容的參賽方案。該任務旨在選擇性地從大型語言模型中刪除敏感知識,避免過度遺忘和遺忘不足的問題。我們提出了一種利用模型合併(特別是TIES-Merging)的消除學習系統,將兩個專用模型合併為一個更平衡的消除學習模型。我們的系統取得了優異的成績,在26支參賽隊伍中排名第二,任務聚合得分為0.944,總體聚合得分為0.487。在本文中,我們還進行了本地實驗,並對消除學習過程進行了全面分析,包括性能軌跡、損失動態和權重視角,以及多項補充實驗,以理解我們方法的有效性。此外,我們分析了我們方法和評估指標的不足,強調僅靠MIA分數和基於ROUGE的指標不足以全面評估成功的消除學習。最後,我們強調了在未來研究中需要更全面的評估方法和重新思考消除學習目標的必要性。代碼可在https://github.com/zjunlp/unlearn/tree/main/semeval25獲取。
近期,二維和多模態模型的進展通過大規模數據集上的訓練取得了顯著成功。然而,將這些成就擴展到實現與複雜三維/四維場景的自由交互和高層次語義操作仍然具有挑戰性。這一困難源於大規模、註釋完整的三維/四維或多視角數據集的稀缺,這些數據集對於開放詞彙和基於提示的分割、語言引導的編輯以及視覺問答(VQA)等可泛化的視覺與語言任務至關重要。本文中,我們介紹了Feature4X,這是一個通用框架,旨在僅利用單目視頻輸入(廣泛存在於用戶生成內容中)將二維視覺基礎模型的任何功能擴展到四維領域。Feature4X中的“X”代表其多功能性,能夠通過可適應的、模型條件化的四維特徵場蒸餾實現任何任務。我們框架的核心是一種動態優化策略,將多種模型能力統一為單一表示。此外,據我們所知,Feature4X是首個利用高斯潑濺技術將視頻基礎模型(如SAM2、InternVideo2)的特徵蒸餾並提升為顯式四維特徵場的方法。我們的實驗展示了新視角下的任意分割、幾何和外觀場景編輯,以及所有時間步上的自由形式VQA,這些都得益於反饋循環中的大型語言模型(LLMs)支持。這些進展通過提供一個可擴展、上下文感知且時空感知的系統基礎,拓寬了智能代理AI應用的範圍,使其能夠實現沉浸式的動態四維場景交互。
誘發失敗的輸入在診斷和分析軟體錯誤中扮演著至關重要的角色。錯誤報告通常包含這些輸入,開發者會提取它們以協助除錯。由於錯誤報告是以自然語言撰寫的,先前的研究已利用各種自然語言處理(NLP)技術來自動化提取這些輸入。隨著大型語言模型(LLMs)的出現,一個重要的研究問題隨之而來:生成式LLMs在從錯誤報告中提取誘發失敗的輸入方面,其效果如何?在本論文中,我們提出了LLPut,這是一種技術,用於實證評估三種開源生成式LLMs——LLaMA、Qwen和Qwen-Coder——在從錯誤報告中提取相關輸入的表現。我們在包含206份錯誤報告的數據集上進行了實驗評估,以衡量這些模型的準確性和有效性。我們的研究結果為生成式LLMs在自動化錯誤診斷中的能力與限制提供了深入的見解。
時間一致性在視頻預測中至關重要,以確保輸出結果連貫且無偽影。傳統方法,如時間注意力機制和三維卷積,可能在處理顯著物體運動時遇到困難,且難以捕捉動態場景中的長程時間依賴關係。為解決這一問題,我們提出了Tracktention層,這是一種新穎的架構組件,它通過點軌跡(即跨幀的對應點序列)顯式地整合運動信息。通過引入這些運動線索,Tracktention層增強了時間對齊能力,有效處理複雜的物體運動,並在時間上保持特徵表示的一致性。我們的方法計算效率高,能夠以最小的修改無縫集成到現有模型(如視覺Transformer)中。它可用於將僅處理圖像的模型升級為最先進的視頻模型,有時甚至超越專為視頻預測設計的模型。我們在視頻深度預測和視頻着色任務中展示了這一點,其中配備了Tracktention層的模型相比基準模型展現出顯著提升的時間一致性。
文本引導的圖像編輯旨在根據自然語言指令修改圖像的特定區域,同時保持整體結構和背景的真實性。現有方法利用從擴散模型生成的交叉注意力圖中導出的遮罩來識別需要修改的目標區域。然而,由於交叉注意力機制專注於語義相關性,它們難以維持圖像的完整性。因此,這些方法往往缺乏空間一致性,導致編輯出現偽影和失真。在本研究中,我們針對這些局限性提出了LOCATEdit,它通過基於圖的方法增強交叉注意力圖,利用自注意力導出的補丁關係來維持圖像區域間平滑、連貫的注意力,確保修改僅限於指定項目,同時保留周圍結構。\method在PIE-Bench上持續且顯著地超越了現有基準,展示了其在各種編輯任務中的最先進性能和有效性。代碼可在https://github.com/LOCATEdit/LOCATEdit/找到。