每日精選AI研究論文及翻譯
四維世界建模領域——旨在同時捕捉空間幾何與時間動態——近年來取得了顯著進展,這主要得益於大規模生成模型和多模態學習的進步。然而,真正通用的四維世界模型的發展仍受到高質量數據可用性的根本性限制。現有的數據集和基準測試往往缺乏支持關鍵任務所需的動態複雜性、多領域多樣性以及時空註釋,這些任務包括四維幾何重建、未來預測和相機控制視頻生成。為填補這一空白,我們推出了OmniWorld,這是一個專為四維世界建模設計的大規模、多領域、多模態數據集。OmniWorld由新收集的OmniWorld-Game數據集和幾個精選的公共數據集組成,涵蓋多個領域。與現有的合成數據集相比,OmniWorld-Game提供了更豐富的模態覆蓋、更大的規模以及更真實的動態交互。基於此數據集,我們建立了一個具有挑戰性的基準測試,揭示了當前最先進(SOTA)方法在建模複雜四維環境時的局限性。此外,在OmniWorld上微調現有的SOTA方法,在四維重建和視頻生成任務上均取得了顯著的性能提升,強有力地驗證了OmniWorld作為訓練和評估資源的強大能力。我們期待OmniWorld能成為加速通用四維世界模型開發的催化劑,最終推動機器對物理世界的全面理解。
圖形用戶界面(GUI)代理在通過強化學習自動化複雜用戶界面交互方面展現了顯著進展。然而,當前方法面臨一個根本性困境:離線強化學習能夠在預先收集的軌跡上進行穩定訓練,但由於缺乏軌跡級別的獎勵信號,在多步驟任務執行上表現不佳;在線強化學習通過環境交互捕捉這些信號,卻因獎勵稀疏和部署成本高昂而受限。為解決這一問題,我們提出了半在線強化學習,這是一種在離線軌跡上模擬在線強化學習的新範式。在每次滾動過程中,我們在多輪對話中保留原始模型輸出,其中補丁模塊自適應地恢復滾動軌跡與專家軌跡之間的分歧。為捕捉長期訓練信號,半在線強化學習將折現未來回報引入獎勵計算,並通過加權的步驟級別和回合級別優勢來優化策略。我們進一步引入了半在線性能(SOP),這一指標能更好地與真實在線性能對齊,作為現實世界評估的實用且有效的代理。實驗表明,我們的半在線強化學習在四個動態基準測試中,於7B模型中達到了SOTA性能,相較於基礎模型有顯著提升(例如,在AndroidWorld上提升12.0%,在AITW上提升23.8%),在縮小離線訓練效率與在線多輪推理之間的差距方面取得了重大進展。代碼已公開於https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1。
具身人工智慧的進步在很大程度上依賴於大規模、可模擬的三維場景數據集,這些數據集以場景多樣性和逼真的佈局為特徵。然而,現有的數據集通常存在數據規模或多樣性不足、佈局過於簡化而缺少小物件,以及嚴重的物體碰撞等問題。為解決這些缺陷,我們推出了InternScenes,這是一個新穎的大規模可模擬室內場景數據集,通過整合三種不同的場景來源——真實世界掃描、程序生成場景和設計師創建場景——構成了約40,000個多樣化場景,包含196萬個三維物體,覆蓋15種常見場景類型和288個物體類別。我們特別保留了場景中大量的小物件,從而形成了平均每個區域41.5個物體的逼真且複雜的佈局。我們全面的數據處理流程通過為真實世界掃描創建實物到模擬的複製品來確保可模擬性,通過在這些場景中加入可交互物體來增強互動性,並通過物理模擬解決物體碰撞問題。我們通過兩個基準應用展示了InternScenes的價值:場景佈局生成和點目標導航。兩者均顯示了複雜且逼真的佈局所帶來的新挑戰。更重要的是,InternScenes為擴大這兩項任務的模型訓練規模鋪平了道路,使得在如此複雜的場景中進行生成和導航成為可能。我們承諾開源數據、模型和基準,以惠及整個社區。
視覺-語言模型(VLMs)通常通過預訓練的視覺編碼器處理視覺輸入,隨後通過連接器組件將其投影到語言模型的嵌入空間中。儘管這種投影對於模態融合至關重要,但此步驟可能導致的信息損失及其對模型能力的直接影響仍未被充分研究。我們引入了兩種互補的方法來檢驗並量化這種損失,通過分析潛在表示空間來實現。首先,我們通過分析圖像表示在投影前後的k近鄰關係變化來評估語義信息的保留情況。其次,我們通過從投影表示中重建視覺嵌入,直接在圖像塊級別定位信息損失。實驗表明,連接器顯著扭曲了視覺表示的局部幾何結構,投影後的k近鄰關係偏離了40-60%,這與檢索性能的下降相關。圖像塊級別的嵌入重建為模型在視覺基礎問答任務中的行為提供了可解釋的洞察,發現高信息損失區域能可靠地預測模型表現不佳的實例。
基於注意力機制的隱式點匹配已成為拖拽式編輯的核心瓶頸,導致了反轉強度減弱和測試時優化(TTO)成本高昂的根本性妥協。這一妥協嚴重限制了擴散模型的生成能力,抑制了高保真度的圖像修復和文本引導創作。本文中,我們提出了LazyDrag,這是首個針對多模態擴散變壓器的拖拽式圖像編輯方法,它直接消除了對隱式點匹配的依賴。具體而言,我們的方法從用戶拖拽輸入中生成顯式對應映射,作為增強注意力控制的可靠參考。這一可靠參考為穩定的全強度反轉過程開闢了可能性,這在拖拽式編輯任務中尚屬首次。它消除了TTO的必要性,並釋放了模型的生成潛力。因此,LazyDrag自然統一了精確的幾何控制與文本引導,實現了以往難以企及的複雜編輯:如打開狗的嘴巴並修復其內部,生成新物體如“網球”,或對於模糊的拖拽,做出上下文感知的改變,如將手移入口袋。此外,LazyDrag支持多輪工作流程,可同時進行移動和縮放操作。在DragBench上的評估顯示,我們的方法在拖拽準確性和感知質量上均優於基線,這得到了VIEScore和人類評估的驗證。LazyDrag不僅建立了新的性能標杆,還為編輯範式開闢了新路徑。
監督式微調(Supervised Fine-Tuning, SFT)對於訓練大型語言模型(Large Language Models, LLMs)至關重要,它能顯著提升如指令遵循和上下文學習等關鍵能力。然而,由於特定領域的獨特限制和數據稀缺性,創建適合的訓練數據集仍具挑戰性。本文提出SearchInstruct,一種創新方法,專門設計用於構建高質量的SFT指令數據集。我們的方法始於一組有限的領域特定、由人類生成的問題,這些問題通過大型語言模型系統性地擴展。隨後,動態檢索領域相關資源,為每個擴展問題生成準確且上下文適宜的答案。實驗評估表明,SearchInstruct提升了SFT數據集的多樣性和質量,從而在專業領域內實現了LLM性能的可觀提升。此外,我們展示該方法不僅限於數據集生成,還能有效促進如模型編輯等任務,實現對現有模型的高效更新。為促進可重現性和社區採用,我們在公開的Git倉庫中提供了完整的實現細節、生成的指令-響應對全集以及源代碼:[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)
在生成模型中,扩散模型因其训练目标存在闭式最优最小化器——常被称为最优去噪器——而显得尤为引人注目。然而,使用这一最优去噪器进行扩散仅能复现训练集中的图像,因而未能捕捉到深度扩散模型的行为特征。近期研究尝试刻画这一最优去噪器与深度扩散模型之间的差距,提出了无需训练的解析模型,能够生成与训练过的UNet所生成图像相似的样本。其中表现最佳的方法假设卷积神经网络的平移等变性和局部性归纳偏置是性能差距的根源,因此将这些假设融入其解析模型中。在本研究中,我们提供证据表明,深度扩散模型中的局部性源于图像数据集的统计特性,而非卷积神经网络的归纳偏置。具体而言,我们展示了一个最优参数化线性去噪器展现出与深度神经去噪器相似的局部性特征。我们进一步从理论和实验两方面证明,这种局部性直接源自自然图像数据集中存在的像素相关性。最后,基于这些洞见,我们设计了一个解析去噪器,其在匹配深度扩散模型预测得分方面优于先前专家设计的替代方案。
以往的多目標強化學習研究通常採用固定權重的線性獎勵標量化方法,這種方法被證明無法捕捉非凸的帕累托前沿,從而導致次優結果。這一限制在大型語言模型的線上偏好對齊中尤為關鍵。在這裡,由參數化策略生成的隨機軌跡創造了從參數到目標的高度非線性和非凸映射,沒有任何單一的靜態權重方案能夠找到最佳權衡。我們通過引入動態獎勵權重來解決這一限制,該方法在線上強化學習過程中自適應地調整獎勵權重。與依賴固定權重插值的現有方法不同,我們的動態權重在訓練中持續平衡和優先考慮目標,促進在目標空間中有效探索帕累托前沿。我們介紹了兩種日益複雜且可推廣的方法:(1) 超體積引導的權重適應和 (2) 基於梯度的權重優化,為線上多目標對齊提供了一個多功能工具包。我們的大量實驗展示了它們與常用線上強化學習算法(包括GRPO、REINFORCE和RLOO)的兼容性、在多個數學推理數據集上的有效性,以及對不同模型家族的適用性,始終以比固定權重線性標量化基線更少的訓練步驟實現帕累托主導解。
在多模態大型語言模型(MLLMs)中,幻覺現象——即模型生成與輸入圖像不一致的內容——在實際應用中構成了重大風險,從視覺問答中的錯誤信息到決策中的不安全錯誤。現有的基準測試主要關注識別準確性,即評估模型能否在干擾項中選擇正確答案。這忽略了一個對於可信AI同等重要的能力:識別何時提供的選項都不正確,這種行為反映了認知謙遜。我們提出了HumbleBench,一個新的幻覺基準測試,旨在評估MLLMs在拒絕看似合理但錯誤答案方面的能力,涵蓋三種幻覺類型:物體、關係和屬性。基於全景場景圖數據集,我們利用細粒度的場景圖註釋提取真實實體和關係,並提示GPT-4-Turbo生成多選題,隨後進行嚴格的篩選過程。每個問題都包含一個“以上皆非”選項,要求模型不僅要識別正確的視覺信息,還要在沒有有效答案時做出判斷。我們在HumbleBench上評估了多種最先進的MLLMs——包括通用型和專用推理模型——並與社區分享了寶貴的發現和見解。通過引入明確的錯誤選項拒絕機制,HumbleBench填補了當前評估套件中的關鍵空白,為安全關鍵場景中的MLLM可靠性提供了更真實的衡量標準。我們的代碼和數據集已公開發布,可訪問https://github.com/maifoundations/HumbleBench。
近期,仅依赖文本的“慢思考”推理技术取得了显著进展,这促使研究者们尝试将这一能力迁移至视觉语言模型(VLMs),以训练视觉推理模型(VRMs)。然而,此类迁移面临关键挑战:在VRMs中实现有效的“慢思考”需要视觉反思能力,即基于视觉信息核查推理过程的能力。通过定量分析,我们观察到当前的VRMs在视觉反思方面表现有限,其对于视觉信息的关注度随着生成回答长度的增加而迅速减弱。为应对这一挑战,我们提出了一种新型VRM——Reflection-V,该模型通过构建冷启动的推理数据及强化学习(RL)的奖励设计,增强了视觉反思能力。首先,我们利用一个在VLMs与推理LLMs之间交互的代理,构建了以视觉为中心的推理数据,从而实现了视觉反思模式的冷启动学习。其次,在RL过程中采用基于视觉注意力的奖励模型,以鼓励基于视觉信息的推理。因此,Reflection-V在多个视觉推理基准测试中均展现出显著提升。此外,Reflection-V在视觉推理过程中对视觉信息的依赖更强且更为一致,表明其视觉反思能力得到了有效增强。
具身導航要求智能體在複雜的三維環境中整合感知、推理和行動,以實現穩健的交互。現有方法常因推理軌跡的不連貫與不穩定而阻礙了跨多樣環境的泛化能力,且在平衡長時程語義推理與低延遲控制以實現實時導航方面存在困難。為應對這些挑戰,我們提出了Nav-R1,一個統一具身環境中推理的基礎模型。首先,我們構建了Nav-CoT-110K,一個大規模的逐步思維鏈(CoT)數據集,專為具身任務設計,支持基於結構化推理的冷啟動初始化。在此基礎上,我們設計了一個基於GRPO的強化學習框架,包含格式、理解和導航三種互補獎勵,以提升結構遵循性、語義接地性和路徑保真度。此外,我們引入了“快慢分離”推理範式,將深思熟慮的語義推理與低延遲的反應控制解耦,實現高效且連貫的導航。在具身AI基準上的廣泛評估表明,Nav-R1在推理和導航性能上平均提升超過8%,持續超越強基準。在移動機器人上的實際部署進一步驗證了其在有限機載資源下的魯棒性。代碼:https://github.com/AIGeeksGroup/Nav-R1。網站:https://aigeeksgroup.github.io/Nav-R1。
去中心化社交媒體平台的興起,為公共話語的實時分析帶來了新的機遇與挑戰。本研究介紹了CognitiveSky,這是一個開源且可擴展的框架,專為Bluesky(一個聯邦制的Twitter或X.com替代平台)上的情感、情緒及敘事分析而設計。通過Bluesky的應用程序接口(API)獲取數據,CognitiveSky運用基於Transformer的模型來標註大規模用戶生成內容,並生成結構化且可分析的輸出結果。這些摘要驅動了一個動態儀表板,可視化情緒、活動及話題討論的演變模式。CognitiveSky完全建立在免費層級的基礎設施之上,實現了低運營成本和高可訪問性。雖然本文展示了其在心理健康話語監控中的應用,但其模塊化設計使其能夠跨領域應用,如虛假信息檢測、危機響應及公民情緒分析。通過將大型語言模型與去中心化網絡相結合,CognitiveSky為數字生態系統變革時代的計算社會科學提供了一個透明、可擴展的工具。
理解人類行為特質是人機交互、計算社會科學和個性化人工智能系統應用的核心。這種理解通常需要整合多種模態來捕捉細微的模式和關係。然而,現有資源很少提供將行為描述符與面部屬性和傳記信息等互補模態相結合的數據集。為填補這一空白,我們提出了PersonaX,這是一個精心策劃的多模態數據集集合,旨在實現跨模態的公共特質全面分析。PersonaX包含兩部分:(1) CelebPersona,涵蓋了來自不同職業的9444位公眾人物;(2) AthlePersona,覆蓋了7大主要體育聯盟的4181名職業運動員。每個數據集都包括由三個高性能大型語言模型推斷的行為特質評估,以及面部圖像和結構化的傳記特徵。我們從兩個互補層面分析PersonaX。首先,我們從文本描述中抽象出高層次特質分數,並應用五種統計獨立性檢驗來探討它們與其他模態的關係。其次,我們引入了一種新穎的因果表示學習(CRL)框架,專為多模態和多測量數據設計,提供了理論上的可識別性保證。在合成數據和真實世界數據上的實驗證明了我們方法的有效性。通過統一結構化和非結構化分析,PersonaX為研究與視覺和傳記屬性相結合的LLM推斷行為特質奠定了基礎,推動了多模態特質分析和因果推理的發展。
語音分詞技術實現了離散表示,並促進了語音語言模型的構建。然而,現有的神經編解碼器主要捕獲低層次的聲學特徵,忽視了人類語音中固有的語義和上下文線索。儘管近期研究嘗試從自監督語音模型中引入語義表示,或整合預訓練語言模型中的上下文表示,但在對齊和統一語義與上下文表示方面仍面臨挑戰。本文提出FuseCodec,通過強跨模態對齊和全局信息監督,統一了聲學、語義及上下文表示。我們提出了三種互補技術:(i) 潛在表示融合,將語義和上下文特徵直接整合至編碼器潛在空間,以實現魯棒且統一的表示學習;(ii) 全局語義-上下文監督,利用全局池化並廣播的表示來監督離散標記,增強時間一致性與跨模態對齊;(iii) 時間對齊的上下文監督,通過在局部窗口內動態匹配上下文與語音標記,強化對齊,實現細粒度的標記級監督。此外,我們還介紹了FuseCodec-TTS,展示了該方法在零樣本語音合成中的適用性。實驗表明,FuseCodec在LibriSpeech數據集上達到了最先進的性能,在轉錄準確率、感知質量、可懂度及說話人相似性方面均超越了EnCodec、SpeechTokenizer和DAC。結果凸顯了基於語境和語義指導的分詞技術在語音分詞及下游任務中的有效性。代碼及預訓練模型已公開於https://github.com/mubtasimahasan/FuseCodec。
近期大型视频模型(LVMs)的显著进展极大地提升了视频理解能力。然而,这些模型仍存在幻觉问题,生成的内容与输入视频相矛盾。为解决这一问题,我们提出了Dr.V,一个涵盖感知、时间和认知层面的层次化框架,通过细粒度的时空定位来诊断视频幻觉。Dr.V由两个关键组件构成:基准数据集Dr.V-Bench和卫星视频代理Dr.V-Agent。Dr.V-Bench包含从4,974个视频中抽取的10,000个实例,覆盖多种任务,每个实例均配有详细的时空标注。Dr.V-Agent通过在感知和时间层面系统性地应用细粒度时空定位,随后进行认知层面的推理,来检测LVMs中的幻觉。这一逐步的流程模拟了人类对视频的理解方式,有效识别了幻觉。大量实验表明,Dr.V-Agent在诊断幻觉的同时,增强了可解释性和可靠性,为现实场景中的稳健视频理解提供了实用蓝图。我们的所有数据和代码均可在https://github.com/Eurekaleo/Dr.V获取。
在心理健康及其他敏感領域部署大型語言模型(LLMs)引發了關於倫理推理、公平性及責任對齊的迫切問題。然而,現有的道德與臨床決策基準並未充分涵蓋心理健康實踐中獨特的倫理困境,其中保密性、自主性、行善原則與偏見經常交織。為填補這一空白,我們推出了《心理健康中的倫理推理》(EthicsMH),這是一個包含125個情境的試點數據集,旨在評估AI系統如何在治療與精神科背景下處理涉及倫理的複雜情況。每個情境均配備了結構化字段,包括多種決策選項、專家對齊的推理、預期模型行為、現實世界影響及多利益相關者觀點。此結構不僅能評估決策的準確性,還能評估解釋質量與專業規範的對齊程度。儘管規模適中且借助模型輔助生成,EthicsMH建立了一個橋接AI倫理與心理健康決策的任務框架。通過發布此數據集,我們旨在提供一個可通過社群與專家貢獻擴展的種子資源,促進開發能夠負責任地處理社會最微妙決策的AI系統。
本論文介紹了我們為CLEF 2025 CheckThat!實驗室任務三所開發的系統,該任務專注於利用檢索到的證據來驗證數值和時間聲明。我們探索了兩種互補的方法:使用指令微調的大型語言模型(LLMs)進行零樣本提示,以及採用參數高效的LoRA進行監督式微調。為了提升證據質量,我們研究了多種選擇策略,包括全文輸入和使用BM25與MiniLM進行前k句過濾。我們表現最佳的模型——基於LoRA微調的LLaMA——在英文驗證集上展現了強勁的性能。然而,測試集上的顯著下降凸顯了泛化能力的挑戰。這些發現強調了證據粒度與模型適應性對於實現穩健的數值事實驗證的重要性。
特定領域的嵌入模型在需要專業語義理解的應用中展現出潛力,例如編碼代理和金融檢索系統,通常比通用模型獲得更高的性能提升。然而,最先進的嵌入模型通常基於包含數十億參數的大型語言模型(LLMs),這使得在資源受限的環境中部署變得具有挑戰性。通過剪枝進行模型壓縮提供了一個有前景的解決方案,但現有的剪枝方法均勻處理所有參數,未能區分通用語義表示和特定領域模式,導致次優的剪枝決策。因此,我們提出了GAPrune,這是一個剪枝框架,通過考慮領域重要性和保留通用語言基礎來應對這一挑戰。我們的方法使用費雪信息來衡量重要性,並通過通用領域梯度對齊來評估參數行為,然後使用我們的領域對齊重要性(DAI)評分來結合這些信號。較低的DAI分數表明該參數對領域任務的重要性較低,或在領域和通用目標之間產生衝突。在兩個領域基準測試(FinMTEB和ChemTEB)上的實驗表明,GAPrune在50%稀疏度的一次性剪枝中保持了與密集模型在2.5%以內的性能,同時優於所有基線。在100步的重新訓練中,GAPrune在FinMTEB上實現了+4.51%的提升,在ChemTEB上實現了+1.73%的提升,證明我們的剪枝策略不僅保留了特定領域的能力,還增強了這些能力。我們的研究結果表明,基於原則的剪枝策略可以實現模型壓縮和增強領域專業化,為研究社區提供了一種新的開發方法。
随着大型语言模型(LLMs)与外部工具的交互日益频繁,针对工具使用的奖励建模已成为一个关键但尚未充分探索的领域。现有的奖励模型主要基于自然语言输出进行训练,难以有效评估基于工具的推理与执行。为量化这一差距,我们引入了FC-RewardBench,这是首个旨在系统评估奖励模型在工具调用场景中表现的基准。我们的分析表明,当前的奖励模型往往未能捕捉到有效工具使用的关键信号,凸显了领域特定建模的必要性。为此,我们提出了一种基于结果的奖励模型训练框架,利用从宽松许可、开放权重的大型语言模型中合成的数据进行训练。我们训练了参数规模从1.7B到14B不等的模型,并在七个跨领域基准上进行了评估。这些模型在多个下游任务中持续超越通用基线,平均性能提升高达25%,并通过奖励引导的筛选实现了数据高效微调。
大型語言模型(LLMs)在情感智能(EI)和長上下文理解方面取得了顯著進展。然而,現有的基準測試往往忽略了長上下文情境下EI的某些方面,尤其是在實際應用場景中,互動內容冗長、多樣且通常帶有噪音。為了邁向這種現實情境,我們提出了LongEmotion,這是一個專為長上下文EI任務設計的基準測試。它涵蓋了多樣化的任務,包括情感分類、情感檢測、情感問答、情感對話、情感摘要和情感表達。這些任務的平均輸入長度達到8,777個詞元,其中情感表達任務需要長文本生成。為了在現實約束下提升性能,我們引入了檢索增強生成(RAG)和協作情感建模(CoEM),並將其與標準的提示方法進行比較。與傳統方法不同,我們的RAG方法同時利用對話上下文和大型語言模型本身作為檢索來源,避免了對外部知識庫的依賴。CoEM方法則通過將任務分解為五個階段,整合了檢索增強和有限知識注入,進一步提升了性能。實驗結果表明,RAG和CoEM在多數長上下文任務中持續提升了與EI相關的性能,推動LLMs向更實用和現實世界中的EI應用邁進。此外,我們在GPT系列上進行了比較案例研究實驗,展示了不同模型在EI方面的差異。代碼可在GitHub上獲取,網址為https://github.com/LongEmotion/LongEmotion,項目頁面則位於https://longemotion.github.io/。