每日精選AI研究論文及翻譯
我們提出FlowRL:通過流量平衡來匹配完整的獎勵分佈,而非在大語言模型(LLM)強化學習(RL)中單純最大化獎勵。近期先進的推理模型採用了獎勵最大化方法(例如PPO和GRPO),這些方法往往過度優化主導的獎勵信號,而忽視了出現頻率較低但有效的推理路徑,從而降低了多樣性。與此相反,我們利用可學習的分割函數將標量獎勵轉化為歸一化的目標分佈,然後最小化策略與目標分佈之間的反向KL散度。我們將這一理念實現為一種流量平衡的優化方法,以促進多樣化的探索和可泛化的推理軌跡。我們在數學和代碼推理任務上進行了實驗:FlowRL在數學基準測試中相比GRPO平均提升了10.0%,相比PPO提升了5.1%,並且在代碼推理任務上表現始終更優。這些結果凸顯了獎勵分佈匹配作為LLM強化學習中實現高效探索和多樣化推理的關鍵一步。
視覺語言模型(VLMs)已使計算機使用代理(CUAs)能夠自主操作圖形用戶界面(GUI),展現出巨大潛力,但由於缺乏大規模、開源的計算機使用數據和基礎模型,進展受到限制。在本研究中,我們介紹了ScaleCUA,這是邁向開源CUAs規模化的一步。它提供了一個涵蓋6個操作系統和3個任務領域的大規模數據集,通過一個閉環管道構建,該管道將自動化代理與人類專家結合。基於這一擴展數據訓練的ScaleCUA能夠無縫跨平台操作。具體而言,它在基準測試中表現出顯著提升(WebArena-Lite-v2上+26.6,ScreenSpot-Pro上+10.7),並創下了新的最先進成果(MMBench-GUI L1-Hard上94.4%,OSWorld-G上60.6%,WebArena-Lite-v2上47.4%)。這些發現凸顯了數據驅動的規模化對於通用計算機使用代理的強大作用。我們將發布數據、模型和代碼以推動未來研究:https://github.com/OpenGVLab/ScaleCUA。
大型語言模型(LLMs)正日益應用於多樣化的現實場景中,每個場景都遵循由用戶或組織量身定制的行為與安全規範(spec)。這些規範分為安全規範和行為規範,因場景而異,並隨著偏好和需求的變化而演進。我們將這一挑戰形式化為規範對齊,著重於LLMs從行為和安全角度遵循動態、場景特定規範的能力。為應對這一挑戰,我們提出了Align3,這是一種輕量級方法,採用測試時深思(TTD)結合分層反思與修訂來推理規範邊界。我們進一步推出了SpecBench,這是一個用於衡量規範對齊的統一基準,涵蓋5個場景、103個規範和1,500個提示。通過對15個推理模型和18個指令模型進行多種TTD方法(包括自我精煉、TPO和MoreThink)的實驗,我們得出了三個關鍵發現:(i)測試時深思能提升規範對齊;(ii)Align3以最小開銷推進安全與助益的權衡前沿;(iii)SpecBench有效揭示了對齊差距。這些結果凸顯了測試時深思作為推理現實世界規範邊界的有效策略的潛力。
我們提出了AToken,這是首個能夠在圖像、視頻和3D資產上同時實現高保真重建與語義理解的統一視覺標記器。與現有專注於單一模態重建或理解的標記器不同,AToken將這些多樣的視覺輸入編碼到一個共享的4D潛在空間中,在單一框架內統一了任務與模態。具體而言,我們引入了一種純Transformer架構,配備4D旋轉位置嵌入,以處理任意分辨率和時間長度的視覺輸入。為了確保訓練的穩定性,我們提出了一種無對抗的訓練目標,結合感知損失和Gram矩陣損失,達到了最先進的重建質量。通過採用漸進式訓練課程,AToken逐步從單一圖像、視頻擴展到3D,並支持連續和離散的潛在標記。AToken在圖像上實現了0.21的rFID和82.2%的ImageNet準確率,在視頻上實現了3.01的rFVD和32.6%的MSRVTT檢索率,在3D上實現了28.19的PSNR和90.9%的分類準確率。在下游應用中,AToken既支持視覺生成任務(如使用連續和離散標記的圖像生成、文本到視頻生成、圖像到3D合成),也支持理解任務(如多模態大語言模型),在所有基準測試中均展現出競爭力。這些成果為基於統一視覺標記化的下一代多模態AI系統指明了方向。
大型語言模型(LLMs)越來越多地採用可驗證獎勵的強化學習(RLVR)進行訓練,然而實際部署需要模型能夠在無標籤或外部評判的情況下自我改進。現有的無標籤方法,如信心最小化、自我一致性或多數投票目標,雖能穩定學習,但逐漸縮小探索範圍,導致熵崩潰:生成的內容變得更短、多樣性降低且脆弱。與之前主要針對手頭無標籤數據集進行即時適應的測試時強化學習(TTRL)方法不同,我們的目標更為廣泛:在不犧牲模型固有探索能力和泛化能力的前提下,實現普遍改進,即進化。我們將此問題形式化,並提出了面向進化的無標籤強化學習(EVOL-RL),這是一個在無標籤環境下結合穩定性與變化的簡單規則。EVOL-RL將多數投票的答案作為穩定錨點(選擇),同時添加一個新穎性感知獎勵,該獎勵偏愛那些推理過程與已生成內容不同的回應(變化),並在語義空間中進行衡量。通過GRPO實現的EVOL-RL,還採用非對稱裁剪來保留強信號,並使用熵正則化器來維持搜索。這種“多數選擇+新穎變化”的設計防止了崩潰,保持了更長且信息量更大的思維鏈,並提升了pass@1和pass@n的表現。EVOL-RL在多數情況下均優於僅基於多數的TTRL基線;例如,在無標籤的AIME24上訓練,將Qwen3-4B-Base在AIME25上的pass@1從TTRL的4.6%提升至16.4%,pass@16從18.5%提升至37.9%。EVOL-RL不僅防止了多樣性崩潰,還釋放了跨領域(如GPQA)的更強泛化能力。此外,我們展示了EVOL-RL在RLVR設置下也能提升性能,凸顯了其廣泛的適用性。
近期的視頻擴散模型因其豐富的潛在世界先驗知識,在空間智能任務中展現出強大的潛力。然而,這種潛力受到其有限的可控性和幾何不一致性的阻礙,導致其強大的先驗知識與在3D/4D任務中的實際應用之間存在差距。因此,當前的方法通常依賴於重新訓練或微調,這不僅可能損害預訓練知識,還帶來高昂的計算成本。為解決這一問題,我們提出了WorldForge,這是一個無需訓練、在推理時運行的框架,由三個緊密耦合的模塊組成。**步驟內遞歸優化**在推理過程中引入了一種遞歸優化機制,通過在每個去噪步驟內反覆優化網絡預測,實現精確的軌跡注入。**流控潛在融合**利用光流相似性在潛在空間中將運動與外觀解耦,並選擇性地將軌跡引導注入與運動相關的通道。**雙路徑自校正引導**通過比較有引導和無引導的去噪路徑,自適應地校正由噪聲或未對齊的結構信號引起的軌跡漂移。這些組件共同作用,無需訓練即可注入細粒度的、與軌跡對齊的引導,實現精確的運動控制和逼真的內容生成。在各種基準測試上的廣泛實驗驗證了我們方法在真實感、軌跡一致性和視覺保真度方面的優越性。這項工作為可控視頻合成引入了一種新穎的即插即用範式,為利用生成先驗進行空間智能提供了新的視角。
搜索已成為基於大型語言模型(LLM)代理的核心基礎設施,並被廣泛視為邁向更通用智能的關鍵路徑。金融領域是一個特別嚴苛的試煉場:分析師們經常對時效性強、領域特定的數據進行複雜的多步驟搜索,這使其成為評估搜索能力和基於知識推理的理想場景。然而,現有的公開金融數據集均未評估端到端代理的數據搜索能力,主要原因在於構建真實且複雜的任務需要深厚的金融專業知識,且時效性數據難以評估。我們推出了FinSearchComp,這是首個完全開源的代理基準,專注於真實、開放領域的金融搜索與推理。FinSearchComp包含三項任務——時效性數據獲取、簡單歷史查詢和複雜歷史調查——這些任務緊密再現了現實世界金融分析師的工作流程。為了確保難度和可靠性,我們邀請了70位專業金融專家進行註釋,並實施了嚴格的多階段質量保證流程。該基準涵蓋了全球及大中華區市場的635個問題,我們對21個模型(產品)進行了評估。Grok 4(網絡版)在全球子集中表現最佳,接近專家級準確率。而DouBao(網絡版)則在大中華區子集中領先。實驗分析表明,為代理配備網絡搜索和金融插件能顯著提升其在FinSearchComp上的表現,且模型和工具的來源國對性能有顯著影響。通過對齊現實分析師任務並提供端到端評估,FinSearchComp為複雜金融搜索與推理提供了一個專業且高難度的測試平台。
近期研究揭示了高质量視覺表徵在圖像生成中的重要性,並凸顯了生成模型在圖像理解方面的局限性。作為最初為自然語言設計的生成範式,自回歸模型面臨著類似的挑戰。在本研究中,我們首次系統性地探討了將下一個詞預測範式應用於視覺領域的機制。我們識別出阻礙高層次視覺語義學習的三個關鍵特性:局部與條件依賴性、步驟間語義不一致性以及空間不變性缺失。我們證明,通過在訓練過程中引入自監督目標,這些問題可以得到有效解決,從而提出了一種新穎的訓練框架——自回歸模型的自引導訓練(ST-AR)。無需依賴預訓練的表徵模型,ST-AR顯著增強了自回歸模型的圖像理解能力,並提升了生成質量。具體而言,在保持相同採樣策略的情況下,ST-AR為LlamaGen-L帶來了約42%的FID提升,為LlamaGen-XL帶來了49%的FID提升。
本文介紹了RynnVLA-001,這是一個基於大規模人類示範視頻生成預訓練的視覺-語言-動作(VLA)模型。我們提出了一種新穎的兩階段預訓練方法。第一階段,自我中心視頻生成預訓練,在1200萬個自我中心操作視頻上訓練一個圖像到視頻模型,以根據初始幀和語言指令預測未來幀。第二階段,人類中心軌跡感知建模,通過聯合預測未來關鍵點軌跡來擴展這一方法,從而有效地將視覺幀預測與動作預測相結合。此外,為了增強動作表示,我們提出了ActionVAE,這是一種變分自編碼器,將動作序列壓縮為緊湊的潛在嵌入,降低了VLA輸出空間的複雜性。在相同的下游機器人數據集上進行微調時,RynnVLA-001在性能上超越了最先進的基線模型,證明了所提出的預訓練策略為VLA模型提供了更有效的初始化。
現有的基於指令的圖像編輯(IBIE)方法在處理具有挑戰性的編輯任務時面臨困難,這主要是因為現有數據集的編輯類型和樣本數量均有限。此外,傳統的數據集構建過程常包含噪聲圖像-標註對,這可能引入偏差並限制模型在複雜編輯場景中的能力。為解決這些限制,我們引入了MultiEdit,這是一個包含超過107K高質量圖像編輯樣本的綜合數據集。它通過多樣化的18種非風格轉換編輯類型和38種風格轉換操作,涵蓋了6種具有挑戰性的編輯任務,從精細的風格轉換到複雜的語義操作,如人物參考編輯和圖像內文本編輯。我們採用了一種新穎的數據集構建流程,利用兩個多模態大語言模型(MLLMs)分別生成視覺適應性編輯指令並生成高保真度的編輯圖像。大量實驗表明,使用我們的MultiEdit-Train集對基礎開源模型進行微調,顯著提升了模型在我們提出的MultiEdit-Test基準上處理複雜編輯任務的性能,同時有效保留了其在標準編輯基準上的能力。我們相信MultiEdit為推進更為多樣化和具有挑戰性的IBIE能力研究提供了寶貴資源。我們的數據集可在https://huggingface.co/datasets/inclusionAI/MultiEdit獲取。
時空視頻定位(STVG)旨在根據輸入的文本查詢,定位視頻中的時空管道。本文利用多模態大語言模型(MLLMs)探索STVG中的零樣本解決方案。我們揭示了關於MLLMs的兩個關鍵洞察:(1)MLLMs傾向於動態分配特殊標記,稱為定位標記,用於定位文本查詢;(2)MLLMs由於無法完全整合文本查詢中的線索(例如屬性、動作)進行推理,往往導致次優的定位。基於這些洞察,我們提出了一個基於MLLM的零樣本STVG框架,其中包括新穎的分解時空高亮(DSTH)和時空增強組裝(TAS)策略,以釋放MLLMs的推理能力。DSTH策略首先將原始查詢解耦為屬性和動作子查詢,以在空間和時間上查詢目標的存在。然後,它使用一個新穎的對數引導重注意(LRA)模塊,通過正則化每個子查詢的標記預測,來學習潛在變量作為空間和時間提示。這些提示分別高亮屬性和動作線索,引導模型的注意力到可靠的空間和時間相關視覺區域。此外,由於屬性子查詢的空間定位應具有時間一致性,我們引入了TAS策略,使用原始視頻幀和時空增強幀作為輸入來組裝預測,以幫助提高時間一致性。我們在多種MLLMs上評估了我們的方法,並顯示其在三個常見的STVG基準測試中優於SOTA方法。代碼將在https://github.com/zaiquanyang/LLaVA_Next_STVG上提供。
超聲成像因其無電離輻射、成本低廉及實時成像等優勢,已成為早期癌症篩查的首選影像模式。然而,傳統超聲診斷高度依賴醫師經驗,存在主觀性強、診斷效率低等挑戰。視覺-語言模型(VLMs)為此提供了潛在解決方案,但現有通用模型在超聲醫學任務中表現出知識有限,多器官病變識別泛化能力差,且在多任務診斷中效率低下。為解決這些限制,我們提出了EchoVLM,這是一款專為超聲醫學成像設計的視覺-語言模型。該模型採用專家混合(MoE)架構,並基於涵蓋七個解剖區域的數據進行訓練。此設計使模型能夠執行多項任務,包括超聲報告生成、診斷及視覺問答(VQA)。實驗結果表明,在超聲報告生成任務中,EchoVLM相比Qwen2-VL在BLEU-1和ROUGE-1分數上分別顯著提升了10.15和4.77分。這些發現表明,EchoVLM在提升超聲成像診斷準確性方面具有巨大潛力,從而為未來臨床應用提供了可行的技術解決方案。源代碼及模型權重可於https://github.com/Asunatan/EchoVLM獲取。
高分辨率遙感影像的變化檢測是地球觀測應用的基石,但其效能常受兩大關鍵挑戰所限。首先,模型易將時間變化(如光照、季節)引起的輻射差異誤解為真實變化,導致誤報頻發。其次,深度抽象特徵與淺層細節豐富特徵之間存在不可忽視的語義鴻溝,阻礙了它們的有效融合,最終導致邊界劃分不清。為進一步解決這些問題,我們提出了頻率-空間協同門控網絡(FSG-Net),這是一種旨在系統性區分語義變化與干擾變化的新範式。具體而言,FSG-Net首先在頻域中運作,通過差異感知小波交互模塊(DAWIM)有選擇性地處理不同頻率成分,從而自適應地抑制偽變化。隨後,在空間域中,協同時空注意力模塊(STSAM)增強了真實變化區域的顯著性,進一步精煉特徵。最後,輕量級門控融合單元(LGFU)利用高層語義有選擇性地門控並整合來自淺層的關鍵細節,以彌合語義鴻溝。在CDD、GZ-CD和LEVIR-CD基準上的全面實驗驗證了FSG-Net的優越性,分別以94.16%、89.51%和91.27%的F1分數建立了新的技術標準。代碼將在可能發表後於https://github.com/zxXie-Air/FSG-Net公開。