每日精選AI研究論文及翻譯
人工智慧(AI)正加速推動科學研究範式的轉型,不僅提升了研究效率,更驅動了創新。我們介紹了NovelSeek,這是一個統一的閉環多代理框架,旨在跨多個科學研究領域進行自主科學研究(ASR),使研究人員能夠以前所未有的速度和精確度解決這些領域中的複雜問題。NovelSeek凸顯了三大關鍵優勢:1) 可擴展性:NovelSeek在12項科學研究任務中展現了其多功能性,能夠生成創新想法以提升基準代碼的性能。2) 互動性:NovelSeek提供了一個介面,用於在自動化端到端流程中接收人類專家反饋並實現多代理互動,從而無縫整合領域專家知識。3) 效率:NovelSeek在多個科學領域中實現了顯著的性能提升,且所需時間成本遠低於人類努力。例如,在反應產率預測中,僅用12小時就從27.6%提升至35.4%;在增強子活性預測中,準確率在4小時處理後從0.52上升至0.79;而在二維語義分割中,精確度在短短30小時內從78.8%進步到81.0%。
指令遵循對於使大型語言模型(LLMs)與用戶意圖保持一致至關重要。儘管近期以推理為導向的模型在複雜數學問題上展現出令人印象深刻的性能,但其遵循自然語言指令的能力仍未被充分探索。在本研究中,我們引入了MathIF,這是一個專門用於評估數學推理任務中指令遵循能力的基準。我們的實證分析揭示了在提升推理能力與保持可控性之間存在持續的張力,因為推理能力更強的模型往往難以遵從用戶指令。我們發現,基於蒸餾長鏈思維調整的模型或通過推理導向的強化學習訓練的模型,在指令遵循方面往往表現下降,尤其是在生成長度增加時。此外,我們表明,即使簡單的干預措施也能部分恢復模型的服從性,儘管這是以犧牲推理性能為代價的。這些發現凸顯了當前LLM訓練範式中的根本性張力,並激發了對更具指令感知能力的推理模型的需求。我們已在https://github.com/TingchenFu/MathIF上公開了代碼和數據。
近年來,大型語言模型(LLMs)通過大規模強化學習(RL)展現了卓越的推理能力。然而,如何利用RL算法來增強LLMs在多工具協同推理中的有效性仍是一個開放性挑戰。本文介紹了Tool-Star,這是一個基於RL的框架,旨在賦能LLMs在逐步推理過程中自主調用多種外部工具。Tool-Star整合了六類工具,並在數據合成與訓練中採用了系統化的設計。針對工具使用數據稀缺的問題,我們提出了一種通用的工具集成推理數據合成管道,該管道結合了工具集成提示與基於提示的採樣,以自動化且可擴展地生成工具使用軌跡。隨後,通過質量歸一化與難度感知分類過程,過濾掉低質量樣本,並將數據集從易到難進行組織。此外,我們提出了一個兩階段訓練框架,以增強多工具協同推理能力,具體包括:(1)冷啟動微調,通過工具調用反饋引導LLMs探索推理模式;(2)帶有層次獎勵設計的多工具自我批評RL算法,強化獎勵理解並促進有效的工具協作。在超過10個具有挑戰性的推理基準上的實驗分析,凸顯了Tool-Star的有效性與效率。代碼已公開於https://github.com/dongguanting/Tool-Star。
鏈式思維推理已顯著提升了大型語言模型(LLMs)在多個領域的表現。然而,這一推理過程僅限於文本空間,限制了其在視覺密集型任務中的有效性。為解決這一限制,我們引入了像素空間推理的概念。在此新框架下,視覺語言模型(VLMs)配備了一套視覺推理操作,如放大和選取幀。這些操作使VLMs能夠直接檢查、詢問並從視覺證據中推斷,從而提升視覺任務的推理準確性。培養VLMs的像素空間推理能力面臨顯著挑戰,包括模型初始能力的不平衡以及其對新引入像素空間操作的抗拒。我們通過兩階段訓練方法應對這些挑戰。第一階段採用指令微調於合成的推理軌跡,使模型熟悉新視覺操作。隨後,強化學習(RL)階段利用好奇心驅動的獎勵機制,平衡像素空間推理與文本推理之間的探索。借助這些視覺操作,VLMs能夠與複雜視覺輸入(如信息豐富的圖像或視頻)互動,主動收集必要信息。我們證明,該方法在多樣視覺推理基準上顯著提升了VLM性能。我們的7B模型,\model,在V* bench上達到84%,在TallyQA-Complex上達到74%,在InfographicsVQA上達到84%,標誌著迄今為止任何開源模型所達到的最高準確率。這些結果凸顯了像素空間推理的重要性及我們框架的有效性。
近期多模態生成模型的進展,使得基於指令的圖像編輯取得了顯著進步。然而,儘管這些模型能產生視覺上可信的輸出,它們在基於知識的推理編輯任務上的能力仍未被充分探索。本文介紹了KRIS-Bench(基於知識的圖像編輯系統推理基準),這是一個診斷性基準,旨在通過認知科學的視角來評估模型。借鑒教育理論,KRIS-Bench將編輯任務分為三種基礎知識類型:事實性、概念性和程序性。基於此分類法,我們設計了22個代表性任務,涵蓋7個推理維度,並發布了1,267個高質量註釋的編輯實例。為支持細粒度評估,我們提出了一個綜合評估協議,其中包含新穎的知識合理性指標,該指標通過知識提示增強並通過人類研究進行校準。在10個最先進模型上的實證結果顯示,推理性能存在顯著差距,這凸顯了以知識為中心的基準對於推動智能圖像編輯系統發展的必要性。
長視頻理解已成為現實世界應用中的關鍵能力,如視頻監控、會議摘要、教育講座分析和體育廣播。然而,對於視頻大語言模型(VideoLLMs)而言,這仍然在計算上具有挑戰性,主要由於兩個瓶頸:1)順序視頻解碼,即從原始比特流轉換為RGB幀的過程,對於長達一小時的視頻輸入可能需要長達一分鐘;2)大語言模型推理中高達數百萬個令牌的昂貴預填充,導致高延遲和內存使用。為應對這些挑戰,我們提出了QuickVideo,這是一種系統算法協同設計,顯著加速了長視頻理解,以支持實時的下游應用。它包含三個關鍵創新:QuickDecoder,一種基於CPU的並行化視頻解碼器,通過將視頻分割為關鍵幀對齊的區間並行處理,實現了2-3倍的加速;QuickPrefill,一種內存高效的預填充方法,利用KV緩存剪枝支持更多幀的同時減少GPU內存使用;以及一種重疊方案,使CPU視頻解碼與GPU推理重疊進行。這些組件共同作用,將長視頻輸入的推理時間減少了一分鐘,即使在有限的硬件上也能實現可擴展、高質量的視頻理解。實驗表明,QuickVideo在持續時間和採樣率上具有通用性,使長視頻處理在實踐中變得可行。
擴散變壓器(Diffusion Transformers)已成為視覺生成模型的基礎,但其可擴展性受到大規模超參數(HP)調優高成本的限制。最近,針對普通變壓器提出了最大更新參數化(muP),該方法能夠穩定地將超參數從小規模語言模型轉移到大型語言模型,並顯著降低調優成本。然而,尚不清楚普通變壓器的muP是否適用於擴散變壓器,因為兩者在架構和目標上存在差異。在本研究中,我們將標準muP推廣到擴散變壓器,並通過大規模實驗驗證其有效性。首先,我們嚴格證明了主流擴散變壓器(包括DiT、U-ViT、PixArt-alpha和MMDiT)的muP與普通變壓器一致,從而能夠直接應用現有的muP方法。基於這一結果,我們系統性地展示了DiT-muP具有強大的超參數可轉移性。值得注意的是,採用轉移學習率的DiT-XL-2-muP比原始DiT-XL-2實現了2.9倍的收斂速度提升。最後,我們通過將PixArt-alpha從0.04B擴展到0.61B,以及將MMDiT從0.18B擴展到18B,驗證了muP在文本到圖像生成中的有效性。在這兩種情況下,採用muP的模型均超越了各自的基線,同時僅需較小的調優成本,PixArt-alpha僅需一次訓練運行的5.5%,而MMDiT-18B僅需人類專家消耗的3%。這些結果確立了muP作為擴展擴散變壓器的原則性和高效框架。
在本研究中,我们提出了LLaDA-V,一种纯粹基于扩散的多模态大语言模型(MLLM),它通过将视觉指令微调与掩码扩散模型相结合,标志着对当前多模态方法中占主导地位的自回归范式的背离。LLaDA-V建立在LLaDA这一代表性的大语言扩散模型基础之上,整合了视觉编码器及MLP连接器,后者将视觉特征映射至语言嵌入空间,从而实现了有效的多模态对齐。我们的实证研究揭示了几项引人注目的发现:首先,尽管LLaDA-V在纯文本任务上的表现弱于LLaMA3-8B和Qwen2-7B等同类模型,但其在多模态任务中展现出了令人鼓舞的性能。在相同指令数据训练下,LLaDA-V在数据可扩展性更优的情况下,与LLaMA3-V在多模态任务中竞争激烈,并缩小了与Qwen2-VL的性能差距,这暗示了其架构在多模态任务中的有效性。其次,与现有的混合自回归-扩散及纯扩散基MLLM相比,LLaDA-V在多模态理解方面达到了最先进的性能。我们的研究结果表明,大语言扩散模型在多模态情境下展现出潜力,值得在未来的研究中进一步探索。项目页面与代码详见:https://ml-gsai.github.io/LLaDA-V-demo/。
儘管大規模強化學習(RL)在推理領域取得了近期進展,但構建高性能推理模型的訓練方案仍難以捉摸。前沿模型(如DeepSeek-R1)的關鍵實現細節,包括數據策劃策略和RL訓練方案,往往被省略。此外,近期研究表明,對於較小模型而言,蒸餾仍比RL更為有效。在本研究中,我們證明了大規模RL能顯著增強中小型強力模型的推理能力,其成果超越了基於蒸餾的頂尖模型。我們通過大量消融實驗系統地研究了RL訓練過程,並提出了一種簡單而有效的方法:先僅在數學提示上訓練,再僅在代碼提示上訓練。值得注意的是,我們發現僅數學RL不僅顯著提升了強蒸餾模型在數學基準上的表現(例如,7B/14B模型在AIME 2025上分別提升了14.6%/17.2%),還提升了代碼推理任務的表現(例如,7B/14B模型在LiveCodeBench上分別提升了6.8%/5.8%)。此外,延長的僅代碼RL迭代進一步提高了代碼基準上的性能,而數學結果幾乎不受影響或無下降。我們開發了一個穩健的數據策劃管道,用於收集具有高質量、可驗證答案和測試用例的挑戰性提示,以支持跨領域的基於驗證的RL。最後,我們識別了關鍵的實驗洞察,包括逐步增加響應長度的課程學習以及策略上參數更新的穩定效應。我們發現,RL不僅激發了模型在預訓練和有監督微調(如蒸餾)期間獲得的基礎推理能力,還推動了模型推理能力的極限,使其能夠解決之前無法解決的問題。
視覺生成模型在根據文字提示創造逼真圖像方面取得了顯著進展,但在處理涉及多個物體及其精確空間關係與屬性的複雜提示時仍面臨挑戰。有效處理此類提示需要對語義內容和空間佈局進行明確推理。我們提出了GoT-R1框架,該框架應用強化學習來增強視覺生成中的語義-空間推理能力。基於“生成思維鏈”方法,GoT-R1使模型能夠通過精心設計的強化學習,自主發現超越預定義模板的有效推理策略。為實現這一目標,我們提出了一個雙階段多維度獎勵框架,該框架利用多模態大語言模型(MLLMs)來評估推理過程和最終輸出,從而實現對整個生成流程的有效監督。該獎勵系統統一評估語義對齊、空間準確性和視覺質量。實驗結果顯示,在T2I-CompBench基準測試中,特別是在涉及精確空間關係和屬性綁定的組合任務上,GoT-R1取得了顯著提升。通過成功將複雜的推理能力轉移至視覺生成領域,GoT-R1推動了圖像生成技術的前沿發展。為促進未來研究,我們將代碼和預訓練模型公開於https://github.com/gogoduan/GoT-R1。
風險厭惡強化學習在多個高風險領域中找到了應用。與旨在最大化期望收益的經典強化學習不同,風險厭惡的智能體選擇最小化風險的策略,有時甚至會犧牲期望值。這些偏好可以通過效用理論來框架化。我們專注於指數效用函數的特定情況,在這種情況下,我們可以推導出貝爾曼方程,並只需稍作修改即可應用各種強化學習算法。然而,這些方法由於在整個過程中需要進行指數計算,而存在數值不穩定的問題。為了解決這一問題,我們引入了一種基於Itakura-Saito散度的數值穩定且數學嚴謹的損失函數,用於學習狀態價值和動作價值函數。我們從理論和實證兩個方面,將我們提出的損失函數與已有的替代方案進行了評估。在實驗部分,我們探討了多種金融場景,其中一些具有已知的解析解,並展示了我們的損失函數優於其他替代方案。
訓練穩健的檢索與重排序模型通常依賴於大規模的檢索數據集;例如,BGE 集合包含了來自多種數據源的 160 萬個查詢-段落對。然而,我們發現某些數據集可能會對模型效能產生負面影響——從 BGE 集合中剔除 15 個數據集中的 8 個,可使訓練集規模縮小 2.35 倍,並在 BEIR 上提升 nDCG@10 達 1.0 分。這促使我們更深入地審視訓練數據的質量,特別關注「假負例」,即相關段落被錯誤標記為不相關的情況。我們提出了一種簡單且成本效益高的方法,利用級聯的 LLM 提示來識別並重新標記困難負例。實驗結果顯示,將假負例重新標記為真正例,可使 E5(基礎版)和 Qwen2.5-7B 檢索模型在 BEIR 上的 nDCG@10 提升 0.7-1.4 分,在零樣本 AIR-Bench 評估中提升 1.7-1.8 分。對於基於重新標記數據微調的重排序模型,如 Qwen2.5-3B 在 BEIR 上的表現,也觀察到了類似的提升。級聯設計的可靠性進一步得到了人工標註結果的支持,我們發現 GPT-4o 的判斷與人類的一致性遠高於 GPT-4o-mini。
生成式人工智慧(GenAI)在自動化日常影像編輯任務方面展現出巨大潛力,尤其是在2025年3月25日GPT-4o發布之後。然而,人們最常希望編輯的主題是什麼?他們希望執行哪些類型的編輯操作(例如,移除或風格化主體)?人們更偏好結果可預測的精確編輯,還是高度創意的編輯?通過理解現實世界中的請求特徵以及自由職業影像編輯高手所做的相應編輯,我們能否汲取經驗來改進基於AI的編輯器,並確定目前哪些類型的請求能夠被AI編輯器成功處理?在本論文中,我們透過分析Reddit社群過去12年(2013-2025)的83,000個請求,進行了一項獨特的研究,這些請求共收集了305,000次PSR高手編輯。根據人類評分,僅約33%的請求能被最佳AI編輯器(包括GPT-4o、Gemini-2.0-Flash、SeedEdit)完成。有趣的是,AI編輯器在需要精確編輯的低創意請求上表現較差,而在更開放式的任務上表現較好。它們經常難以保留人和動物的身份特徵,並經常進行未請求的修飾。另一方面,視覺語言模型(VLM)評判者(例如o1)的評判方式與人類評判者不同,可能更偏好AI編輯而非人類編輯。程式碼與質性範例可於以下網址取得:https://psrdataset.github.io
大型語言模型(LLMs)通過思維鏈(CoT)推理在數學任務上取得了顯著進展。然而,現有的數學CoT數據集常因專家省略中間步驟而出現思維跳躍,這對模型的學習和泛化產生了負面影響。我們提出了CoT思維跳躍橋接任務,旨在自動檢測跳躍並生成缺失的中間推理步驟,以恢復CoT的完整性和連貫性。為此,我們基於結構化的ScaleQuestMath數據集構建了一個專門的訓練數據集ScaleQM+,並訓練了CoT-Bridge來橋接思維跳躍。通過在數學推理基準上的全面實驗,我們證明,在橋接數據集上微調的模型始終優於在原始數據集上訓練的模型,在NuminaMath上提升了高達+5.87%。我們的方法有效增強了蒸餾數據(+3.02%),並為強化學習提供了更好的起點(+3.1%),作為一個即插即用的模塊,與現有的優化技術兼容。此外,CoT-Bridge在跨領域邏輯推理任務上表現出更好的泛化能力,證實了提升推理完整性能帶來廣泛適用的益處。
大型推理模型(LRMs),如OpenAI o1和DeepSeek-R1,通过生成长链思维显著提升了其推理能力,在多种任务中展现出卓越性能。然而,这种性能提升的代价是生成过程中冗余推理的大幅增加,导致高昂的计算开销并加剧了过度思考的问题。尽管现有众多方法旨在解决过度思考问题,但它们往往依赖外部干预。本文提出了一种新颖的框架——自制动调优(Self-Braking Tuning, SBT),该框架从允许模型自我调节其推理过程的角度出发,从而消除对外部控制机制的依赖。我们基于标准答案构建了一套过度思考识别指标,并设计了一种系统方法来检测冗余推理。该方法能准确识别推理轨迹中的不必要步骤,并为学习自我调节行为生成训练信号。在此基础上,我们开发了一套完整的策略,用于构建具有自适应推理长度的数据,并引入了一种创新的制动提示机制,使模型能够自然地学习在适当点终止推理。在数学基准测试(AIME、AMC、MATH500、GSM8K)上的实验表明,我们的方法在保持与无约束模型相当准确度的同时,将令牌消耗减少了高达60%。
儘管視頻擴散變換器(DiT)模型展現了卓越的生成質量,但其實際部署卻因龐大的計算需求而嚴重受阻。這種低效性源自於兩個關鍵挑戰:自注意力機制相對於令牌長度的二次方複雜性,以及擴散模型的多步特性。為解決這些限制,我們提出了Jenga,一種結合了動態注意力雕刻與漸進分辨率生成的新型推理管道。我們的方法基於兩個關鍵洞察:(1) 早期去噪步驟無需高分辨率潛在特徵,(2) 後期步驟無需密集注意力。Jenga引入了一種基於塊的注意力機制,該機制利用3D空間填充曲線動態選擇相關的令牌交互,同時採用漸進分辨率策略,在生成過程中逐步提升潛在分辨率。實驗結果表明,Jenga在多個最先進的視頻擴散模型上實現了顯著的加速,同時保持了可比的生成質量(在VBench上實現了8.83倍的加速,性能僅下降0.01%)。作為即插即用的解決方案,Jenga通過將推理時間從分鐘級縮短至秒級,使得在現代硬件上實現高質量視頻生成成為可能——且無需模型重新訓練。代碼見:https://github.com/dvlab-research/Jenga
在本研究中,我們提出了Dimple,首個基於離散擴散的多模態大語言模型(DMLLM)。我們觀察到,純粹使用離散擴散方法進行訓練會導致顯著的訓練不穩定性、次優性能以及嚴重的長度偏差問題。為應對這些挑戰,我們設計了一種新穎的訓練範式,該範式結合了初始的自回歸階段與後續的擴散階段。這一方法催生了Dimple-7B模型,其訓練數據集與訓練流程與LLaVA-NEXT相似。最終,Dimple-7B在性能上超越了LLaVA-NEXT達3.9%,證明了DMLLM能夠達到與自回歸模型相當的性能水平。為提升推理效率,我們提出了一種名為自信解碼的解碼策略,該策略動態調整每一步生成的令牌數量,顯著減少了生成迭代次數。在自回歸模型中,生成過程中的前向迭代次數等於響應長度;而採用自信解碼後,Dimple所需的迭代次數僅為響應長度的三分之一。我們還重新實現了自回歸模型中的預填充技術,並證明其在大多數基準評估中對性能影響不大,同時提供了1.5倍至7倍的加速效果。此外,我們探索了Dimple利用結構先驗精確控制其響應的能力。這些先驗使得結構化響應以不同於基於指令或思維鏈提示的方式實現,並允許對響應格式和長度進行細粒度控制,這在自回歸模型中難以達成。總體而言,本研究驗證了DMLLM的可行性與優勢,並提升了其推理效率與可控性。代碼與模型已公開於https://github.com/yu-rp/Dimple。
隨著電子遊戲現已成為娛樂產業中收入最高的領域,優化遊戲開發工作流程對於該行業的持續增長變得至關重要。視覺語言模型(VLMs)的最新進展為自動化和提升遊戲開發的各個方面提供了巨大潛力,尤其是在質量保證(QA)領域,這仍然是該行業中最為勞動密集型且自動化選項有限的流程之一。為了準確評估VLMs在電子遊戲QA任務中的表現,並確定其在處理實際場景中的有效性,顯然需要標準化的基準測試,因為現有的基準測試不足以滿足該領域的特定需求。為彌補這一差距,我們推出了VideoGameQA-Bench,這是一個全面的基準測試,涵蓋了廣泛的遊戲QA活動,包括視覺單元測試、視覺回歸測試、大海撈針任務、故障檢測以及針對各種遊戲的圖像和視頻的錯誤報告生成。代碼和數據可在以下網址獲取:https://asgaardlab.github.io/videogameqa-bench/
儘管強化學習(RL)在提升大型語言模型(LLMs)方面展現了顯著成效,但其主要聚焦於單輪任務,如解決數學問題。由於動態網頁界面中長時序決策的複雜性,訓練有效的多輪互動網頁代理仍具挑戰性。在本研究中,我們提出了WebAgent-R1,這是一個簡單而有效的端到端多輪RL框架,用於訓練網頁代理。它直接從與網頁環境的線上互動中學習,通過異步生成多樣化的軌跡,完全依賴於任務成功與否的二值獎勵進行指導。在WebArena-Lite基準上的實驗證明了WebAgent-R1的有效性,將Qwen-2.5-3B的任務成功率從6.1%提升至33.9%,Llama-3.1-8B的任務成功率從8.5%提升至44.8%,顯著超越了現有的最先進方法及如OpenAI o3等強大的專有模型。深入分析揭示了基於思考的提示策略及通過增加互動進行測試時擴展的有效性。我們進一步探討了不同的RL初始化策略,引入了兩個變體,即WebAgent-R1-Zero和WebAgent-R1-CoT,這強調了熱身訓練階段(即行為克隆)的重要性,並為在網頁代理中融入長鏈推理(CoT)提供了洞見。
多模态大型語言模型(MLLMs)正日益被部署於微調即服務(FTaaS)的場景中,用戶提交的數據集使通用模型適應下游任務。然而,這種靈活性也帶來了嚴重的安全風險,因為惡意微調可以輕易地在MLLMs中植入後門。本文中,我們觀察到後門觸發器會系統性地破壞跨模態處理,導致注意力異常集中於非語義區域——我們稱此現象為注意力崩潰。基於這一洞察,我們提出了“相信你的眼睛”(BYE),這是一個利用注意力熵模式作為自監督信號來識別和過濾後門樣本的數據過濾框架。BYE通過三階段流程運作:(1)使用微調模型提取注意力圖,(2)計算熵分數並通過雙模分離分析敏感層,(3)進行無監督聚類以移除可疑樣本。與現有防禦方法不同,BYE無需乾淨的監督、輔助標籤或模型修改。在多種數據集、模型及不同觸發器類型上的廣泛實驗驗證了BYE的有效性:它實現了接近零的攻擊成功率,同時保持了乾淨任務的性能,為MLLMs中的後門威脅提供了一個強大且可泛化的解決方案。
近期研究顯示,通過基於規則的強化學習(RL)結合結果獎勵,能夠在多模態大型語言模型(MLLMs)中激發出強大的推理能力。然而,這種範式通常缺乏對最終結果產生過程的思維監督,導致模型可能學習到次優的推理策略,從而影響其泛化能力。針對這一問題,我們提出了SophiaVL-R1,嘗試在這一範式中加入思維過程的獎勵信號。為實現這一目標,我們首先訓練了一個思維獎勵模型,用於評估整個思維過程的質量。考慮到某些樣本可能因獎勵欺騙而導致思維獎勵不可靠,我們提出了Trust-GRPO方法,在訓練過程中為思維獎勵分配一個可信度權重。該權重基於正確答案與錯誤答案響應的思維獎勵比較計算得出,有助於減輕潛在不可靠思維獎勵的影響。此外,我們設計了一種退火訓練策略,隨著時間推移逐漸減少思維獎勵,使模型在後期訓練階段更多地依賴於精確的基於規則的結果獎勵。實驗表明,我們的SophiaVL-R1在多個基準測試(如MathVisita、MMMU)上超越了一系列推理MLLMs,展現出強大的推理和泛化能力。值得注意的是,儘管LLaVA-OneVision-72B的參數量是SophiaVL-R1-7B的10倍,但後者在大多數基準測試上仍表現更優。所有代碼、模型和數據集均已公開於https://github.com/kxfan2002/SophiaVL-R1。
強化學習(Reinforcement Learning, RL)已成為提升大型語言模型(Large Language Models, LLMs)推理能力的強大工具,通過獎勵信號來優化其策略。然而,RL的成功依賴於驗證器提供的獎勵的可靠性。在本文中,我們揭露並分析了一個普遍存在的問題——假陰性(false negatives),即驗證器錯誤地拒絕了模型的正確輸出。我們對Big-Math-RL-Verified數據集的深入研究顯示,超過38%的模型生成回應遭受假陰性問題,驗證器未能識別出正確答案。我們從實證和理論兩方面證明,這些假陰性嚴重損害了RL訓練,剝奪了模型獲取信息梯度信號的機會,並減緩了收斂速度。為緩解這一問題,我們提出了tinyV,這是一個基於輕量級LLM的驗證器,它增強了現有的基於規則的方法,動態識別潛在的假陰性並恢復有效回應,以產生更準確的獎勵估計。在多個數學推理基準測試中,整合TinyV使通過率提升了高達10%,並相較於基準線加速了收斂。我們的研究結果強調了解決驗證器假陰性問題的關鍵重要性,並提供了一種實用的方法來改進基於RL的LLM微調。我們的代碼可在https://github.com/uw-nsl/TinyV獲取。
多模態大型語言模型(MLLMs)在問答任務中取得了令人矚目的成功,然而其在空間理解方面的能力卻較少被探討。本研究探討了一個關鍵問題:現有的MLLMs是否具備三維空間感知與理解能力?具體而言,本文做出了以下貢獻:(i) 我們引入了VGBench,這是一個專門設計用於評估MLLMs視覺幾何感知能力的基準,例如相機姿態與運動估計;(ii) 我們提出了SpatialScore,這是迄今為止最全面且多樣化的多模態空間理解基準,它整合了VGBench與來自其他11個現有數據集的相關數據。該基準涵蓋了28,000個樣本,涉及多種空間理解任務、模態及問答格式,並包含一個精心挑選的挑戰性子集SpatialScore-Hard;(iii) 我們開發了SpatialAgent,這是一個新穎的多代理系統,整合了9種專用於空間理解的工具,支持Plan-Execute與ReAct兩種推理範式;(iv) 我們進行了廣泛的評估,揭示了空間推理中持續存在的挑戰,同時展示了SpatialAgent的有效性。我們相信,SpatialScore將為MLLMs的下一階段發展提供寶貴的洞見,並作為一個嚴格的基準。
現代視覺語言模型(VLMs)能夠解決多種需要視覺推理的任務。在實際應用場景中,理想的VLM特性包括快速推理和可控生成(例如,限制輸出以符合特定格式)。然而,現有的自回歸(AR)VLMs如LLaVA在這些方面表現欠佳。離散擴散模型(DMs)提供了一種有前景的替代方案,通過並行解碼實現更快的推理,並通過文本填充實現雙向上下文以支持可控生成。儘管DMs在純語言環境中效果顯著,但其在多模態任務中的潛力尚未充分探索。我們介紹了LaViDa,這是一系列基於DMs構建的VLMs。我們通過為DMs配備視覺編碼器並聯合微調這些組件以實現多模態指令跟隨,來構建LaViDa。為應對遇到的挑戰,LaViDa採用了多種新技術,如互補掩碼以提升訓練效果,前綴KV緩存以優化推理效率,以及時間步長偏移以確保高質量採樣。實驗表明,LaViDa在多模態基準測試如MMMU上,不僅與AR VLMs競爭力相當甚至更優,還展現了DMs的獨特優勢,包括靈活的質量速度權衡、可控性和雙向推理能力。在COCO圖像描述任務中,LaViDa以1.92倍的速度提升,CIDEr得分超過Open-LLaVa-Next-8B達+4.1。在雙向任務中,其在受限詩歌完成任務上實現了+59%的改進。這些結果證明了LaViDa作為AR VLMs的強有力替代方案。代碼和模型將在最終版本中發布。
近期研究表明,強化學習(Reinforcement Learning, RL)在構建推理模型方面具有顯著效果,這些模型在生成最終答案之前能夠清晰地闡述思維鏈。然而,儘管在視覺語言任務中實現推理的技術不斷進步,現有的開源視覺推理模型通常僅使用純自然語言生成推理內容,缺乏對視覺信息的明確整合。這限制了它們生成清晰且視覺基礎紮實的推理鏈的能力。為此,我們提出了基於圖像與文本的接地推理(Grounded Reasoning with Images and Texts, GRIT),這是一種訓練多模態語言模型(MLLMs)進行圖像思維的新方法。GRIT引入了一種接地推理範式,在該範式中,模型生成的推理鏈交織著自然語言和明確的邊界框座標。這些座標指向模型在推理過程中參考的輸入圖像區域。此外,GRIT配備了一種基於GRPO算法的強化學習方法——GRPO-GR。GRPO-GR採用了專注於最終答案準確性和接地推理輸出格式的穩健獎勵機制,從而無需帶有推理鏈註釋或明確邊界框標籤的數據。因此,GRIT實現了卓越的數據效率,僅需現有數據集中的20個圖像-問題-答案三元組即可。全面評估表明,GRIT能有效訓練MLLMs生成連貫且視覺基礎紮實的推理鏈,成功實現了推理與接地能力的統一。
強化學習(Reinforcement Learning, RL)已被證實為一種有效的後訓練策略,能夠提升視覺語言模型(Vision-Language Models, VLMs)的推理能力。群組相對策略優化(Group Relative Policy Optimization, GRPO)是近期一種顯著的方法,它鼓勵模型在回答前生成完整的推理軌跡,從而增加了令牌使用量和計算成本。受人類思維過程的啟發——人們在面對簡單問題時會跳過推理,而在需要時則會仔細思考——我們探索如何讓VLMs首先決定何時需要進行推理。為實現這一目標,我們提出了TON,一種兩階段的訓練策略:(i)監督微調(Supervised Fine-Tuning, SFT)階段,採用簡單而有效的“思維丟棄”操作,即隨機將推理軌跡替換為空思維。這引入了一種“思考與否”的格式,作為選擇性推理的冷啟動;(ii)GRPO階段,使模型能夠自由探索何時思考或跳過,同時最大化任務感知的結果獎勵。實驗結果顯示,與基礎GRPO相比,TON能夠將完成長度減少高達90%,且不犧牲性能甚至有所提升。在涵蓋多種視覺語言任務的進一步評估中——包括3B和7B模型下的一系列推理難度——一致表明,隨著訓練的推進,模型逐漸學會繞過不必要的推理步驟。這些發現為強化學習方法中實現類人推理模式提供了啟示。我們的代碼可在https://github.com/kokolerk/TON 獲取。
近期,基於推理的多模態大語言模型(MLLMs)在生成長篇文本推理鏈方面取得了一定成功。然而,這些模型在處理複雜任務時仍面臨挑戰,這些任務需要動態且迭代地聚焦並重新審視視覺區域,以實現文本推理在視覺證據上的精確定位。我們提出了VLM-R^3(具備區域識別與推理能力的視覺語言模型),這是一個框架,賦予MLLM以下能力:(i) 判斷何時需要額外的視覺證據,(ii) 確定在圖像中的哪個位置進行定位,以及(iii) 將相關的子圖像內容無縫編織到交錯的思維鏈中。我們方法的核心是區域條件強化策略優化(R-GRPO),這是一種訓練範式,獎勵模型選擇信息豐富的區域、制定適當的轉換(如裁剪、縮放),並將由此產生的視覺上下文整合到後續的推理步驟中。為了引導這一策略,我們編制了一個規模適中但精心策劃的視覺-語言交錯推理(VLIR)語料庫,該語料庫提供了區域選擇和文本解釋的步驟級監督。在MathVista、ScienceQA及其他基準測試上的廣泛實驗表明,VLM-R^3在零樣本和少樣本設置下達到了新的技術水平,尤其是在需要細微空間推理或精細視覺線索提取的問題上,取得了最大的進步。
強化學習(RL)在大型語言模型(LLMs)的下游任務表現和與人類價值觀的對齊方面帶來了顯著提升。令人驚訝的是,如此大的增益僅來自於更新一個小規模的子網絡,該子網絡僅包含5%到30%的參數,其餘參數實際上保持不變。我們將這一現象稱為由RL引起的參數更新稀疏性。在我們實驗中,這一現象在所有7種廣泛使用的RL算法(例如PPO、GRPO、DPO)和來自不同家族的10種LLMs中均被觀察到。這種稀疏性是內在的,並且在沒有任何顯式稀疏性促進正則化或架構約束的情況下發生。僅微調子網絡即可恢復測試準確率,並且值得注意的是,生成的模型與通過全面微調獲得的模型幾乎相同。來自不同隨機種子、訓練數據甚至RL算法的子網絡顯示出比隨機預期更大的重疊。我們的分析表明,這種稀疏性並非由於僅更新部分層,而是幾乎所有參數矩陣都接收到類似的稀疏更新。此外,對幾乎所有參數矩陣的更新幾乎都是滿秩的,這表明RL更新了一小部分參數,但這些參數卻幾乎跨越了參數矩陣所能表示的完整子空間。我們推測,這種更新稀疏性主要歸因於在接近策略分佈的數據上進行訓練,而鼓勵策略保持接近預訓練模型的技術(如KL正則化和梯度裁剪)影響有限。
近期,推理型大語言模型(如DeepSeek-R1和OpenAI-o1)通過強化學習展現了令人矚目的推理能力。然而,將這些能力擴展到多模態大語言模型(MLLMs)卻面臨著高昂的重新訓練成本和缺乏高質量、可驗證的多模態推理數據集的挑戰。本文介紹了FRANK模型,這是一種無需訓練且類似於R1的多模態大語言模型,它賦予現成的MLLMs推理和反思能力,無需任何梯度更新或額外監督。我們的關鍵洞察是將感知與推理在MLLM的解碼器層中解耦。具體而言,我們觀察到,與深層解碼器層相比,淺層解碼器層更多地關注視覺標記,而深層解碼器層則集中於文本語義。這一觀察激發了一種分層權重合併方法,該方法將視覺預訓練的MLLM與專門用於推理的LLM相結合。為此,我們提出了一種基於泰勒展開的層級閉合形式融合機制,該機制將推理能力整合到深層解碼器層,同時在淺層解碼器層保留視覺基礎。在具有挑戰性的多模態推理基準上的廣泛實驗證明了我們方法的有效性。在MMMU基準測試中,我們的模型FRANK-38B達到了69.2的準確率,比最強的基線InternVL2.5-38B高出+5.3,甚至超越了專有的GPT-4o模型。我們的項目主頁位於:http://iip.whu.edu.cn/frank/index.html。
大型视觉语言模型(LVLMs)仍易产生幻觉,常生成与视觉输入不符的内容。尽管近期方法通过多模态直接偏好优化(DPO)来缓解幻觉问题,但这些方法通常依赖于预定义或随机编辑的负样本,未能反映模型实际错误,限制了训练效果。本研究提出了一种在线视觉语言偏好学习(OViP)框架,该框架基于模型自身的幻觉输出动态构建对比训练数据。通过识别采样响应对之间的语义差异,并利用扩散模型合成负样本图像,OViP实时生成更具相关性的监督信号。这种基于失败驱动的训练方法实现了文本与视觉偏好的自适应对齐。此外,我们改进了现有评估协议,以更好地捕捉幻觉抑制与表达力之间的权衡。在幻觉和通用基准测试上的实验表明,OViP在保持核心多模态能力的同时,有效减少了幻觉现象。
多模態大型語言模型(MLLMs)在視覺任務上取得了快速進展,但其空間理解能力仍局限於單一圖像,這使得它們在需要多幀推理的機器人技術及其他現實世界應用中表現欠佳。本文提出了一種框架,通過整合深度感知、視覺對應和動態感知,賦予MLLMs強大的多幀空間理解能力。我們方法的核心是MultiSPA數據集,這是一個新穎的大規模數據集,涵蓋了超過2700萬個樣本,跨越多樣的三維和四維場景。與MultiSPA一同,我們引入了一個全面的基準測試,該測試在統一指標下檢驗了廣泛的空間任務。我們最終的模型,Multi-SpatialMLLM,在基線和專有系統上取得了顯著的提升,展示了可擴展、可泛化的多幀推理能力。我們進一步觀察到了多任務的益處以及在挑戰性場景中湧現能力的早期跡象,並展示了我們的模型如何作為機器人技術的多幀獎勵註釋器。
大型語言模型(LLMs)在現實世界的代理應用中展現了先進的能力。日益增長的研究努力旨在開發基於LLM的代理以滿足實際需求,這引入了一個新的挑戰:代理場景通常涉及冗長且帶有複雜約束的指令,例如擴展的系統提示和詳細的工具規範。雖然遵循這些指令對於代理應用至關重要,但LLMs能否可靠地遵循它們仍未被充分探討。在本文中,我們介紹了AgentIF,這是第一個系統評估LLM在代理場景中指令遵循能力的基準。AgentIF具有三個關鍵特徵:(1) 真實性,由50個現實世界的代理應用構建而成。(2) 長度,平均1,723字,最多達15,630字。(3) 複雜性,每條指令平均包含11.9個約束,涵蓋多種約束類型,如工具規範和條件約束。為了構建AgentIF,我們從工業應用代理和開源代理系統中收集了50個代理任務的707條人工註釋指令。對於每條指令,我們註釋了相關的約束和相應的評估指標,包括基於代碼的評估、基於LLM的評估以及混合代碼-LLM評估。我們使用AgentIF系統地評估了現有的先進LLMs。我們觀察到,當前模型普遍表現不佳,特別是在處理複雜的約束結構和工具規範時。我們進一步對指令長度和元約束進行了錯誤分析和分析性實驗,提供了一些關於現有LLMs失敗模式的發現。我們已發布代碼和數據,以促進未來的研究。
基於人類反饋的強化學習(RLHF)已成為對齊大型語言模型與人類偏好的一種強大後訓練範式。RLHF中的核心挑戰在於構建精確的獎勵信號,傳統的布拉德利-特里獎勵模型(BT RMs)常因對數據規模和覆蓋範圍的敏感性,以及易受獎勵攻擊的脆弱性而受限。生成式獎勵模型(GenRMs)通過生成思維鏈(CoT)推理並最終給出獎勵,提供了一種更為穩健的替代方案。然而,現有的GenRMs依賴於淺層、垂直擴展的推理,限制了其處理細微或複雜(如推理密集型)任務的能力。此外,它們的成對偏好輸出與需要點狀獎勵信號的標準RLHF算法不相容。在本研究中,我們引入了Think-RM,這是一個通過建模內部思考過程來實現GenRMs中長遠推理的訓練框架。Think-RM不生成結構化、外部提供的推理,而是生成靈活、自我引導的推理軌跡,支持自我反思、假設推理和發散推理等高級能力。為了激發這些推理能力,我們首先通過對長思維鏈數據進行監督微調(SFT)來預熱模型。隨後,我們通過基於規則的強化學習(RL)進一步提升模型的長遠推理能力。此外,我們提出了一種新穎的成對RLHF流程,直接利用成對偏好獎勵優化策略,省去了點狀獎勵轉換的需求,從而更有效地利用Think-RM的輸出。實驗表明,Think-RM在RM-Bench上取得了最先進的成果,相較於BT RM和垂直擴展的GenRM,性能提升了8%。當與我們的成對RLHF流程結合時,它展現出相較於傳統方法的更優終端策略性能。
大型推理模型(LRMs)引入了一種新的生成範式,即在回答前進行顯式推理,從而顯著提升了在複雜任務中的表現。然而,它們在面對有害查詢和對抗攻擊時存在重大安全風險。儘管近期針對LRMs的主流安全措施——監督微調(SFT)——提升了安全性能,我們發現經過SFT對齊的模型在應對未見過的越獄提示時泛化能力不足。通過對LRMs生成過程的深入調查,我們識別出了一個能夠激活安全推理並引導至安全回應的“安全頓悟時刻”。這一頓悟時刻通常出現在“關鍵句子”中,該句子緊隨模型的查詢理解過程,並能指示模型是否會安全地繼續執行。基於這些洞察,我們提出了SafeKey,包含兩個互補目標以更好地在關鍵句子中激活安全頓悟時刻:(1)雙路徑安全頭,用於在關鍵句子之前增強模型內部表示中的安全信號;(2)查詢掩碼建模目標,旨在提升模型對其查詢理解的注意力,這其中蘊含著重要的安全提示。在多個安全基準上的實驗表明,我們的方法顯著提升了對廣泛越獄攻擊和分佈外有害提示的安全泛化能力,將平均有害率降低了9.6%,同時保持了模型的通用能力。我們的分析揭示了SafeKey如何通過重塑內部注意力和提升隱藏表示的質量來增強安全性。
过程奖励模型(Process Reward Models, PRMs)正日益受到关注,该模型能够对大型语言模型(Large Language Models, LLMs)生成的推理过程提供逐步反馈。然而,当前研究仍存在两大关键空白:收集用于训练的精确步骤级错误标签通常需要昂贵的人工标注,且现有的PRMs仅限于数学推理问题。针对这些空白,本文旨在解决自动数据集创建及PRMs在多样化推理任务中泛化的挑战。为此,我们提出了FoVer方法,该方法利用形式验证工具(如用于形式逻辑的Z3和用于定理证明的Isabelle)自动标注步骤级错误标签来训练PRMs,这些工具为符号任务提供了自动且精确的验证。通过此方法,我们合成了一个训练数据集,其中包含针对形式逻辑和定理证明任务的LLM响应的错误标签,且无需人工标注。尽管这种数据合成仅适用于与形式验证兼容的任务,但我们观察到,基于我们数据集训练的LLM-PRMs展现出跨任务泛化能力,提升了在多样化推理任务中的验证效果。具体而言,采用FoVer训练的PRMs在ProcessBench上的步骤级验证及跨12个推理基准(包括MATH、AIME、ANLI、MMLU和BBH)的Best-of-K性能评估中,显著优于基于原始LLMs的基线PRMs,并与基于人工标注或更强模型训练的最先进PRMs相比,取得了竞争性或更优的结果。相关数据集、模型及代码已发布于https://github.com/psunlpgroup/FoVer。
基于大型语言模型(LLMs)的高质量机器翻译系统已简化了反映特定风格约束的个性化翻译的生产。然而,在风格要求较为隐晦且可能难以通过提示传达的场景中,这些系统仍面临挑战。我们探索了在低资源环境下个性化LLM生成翻译的各种策略,重点关注具有挑战性的文学翻译领域。我们研究了提示策略和推理时干预措施,以引导模型生成朝向个性化风格,并提出了一个对比框架,利用从稀疏自编码器中提取的潜在概念来识别显著的个性化属性。我们的结果表明,引导在保持翻译质量的同时实现了强烈的个性化。我们进一步考察了引导对LLM表示的影响,发现对个性化有相关影响的模型层在多示例提示和我们的引导方法下受到相似的影响,暗示了相似的机制在起作用。
評估大型語言模型(LLMs)的文本生成能力具有挑戰性,尤其是在低資源語言中,直接評估的方法十分稀缺。我們提出了MUG-Eval,這是一個新穎的框架,通過將現有基準轉化為對話任務並測量LLMs在這些任務上的準確率,來評估LLMs的多語言生成能力。我們特別設計了這些對話任務,要求模型在目標語言中進行有效溝通。然後,我們簡單地使用任務成功率作為成功生成對話的代理指標。我們的方法具有兩個關鍵優勢:它不依賴於特定語言的NLP工具或註釋數據集,這些資源在大多數語言中都很有限;並且它不依賴於LLMs作為評判者,因為在少數高資源語言之外,其評估質量會下降。我們評估了8個LLMs在30種語言中的表現,涵蓋高、中、低資源類別,發現MUG-Eval與已建立的基準具有強相關性(r > 0.75),同時能夠實現跨語言和模型的標準化比較。我們的框架提供了一個穩健且資源高效的多語言生成評估解決方案,可擴展至數千種語言。
我們提出了RoPECraft,這是一種無需訓練的視頻運動遷移方法,專為擴散變換器設計,僅通過修改其旋轉位置嵌入(RoPE)來實現。首先,我們從參考視頻中提取密集光流,並利用產生的運動偏移來扭曲RoPE的複指數張量,從而有效地將運動編碼到生成過程中。這些嵌入在去噪時間步長期間通過使用流匹配目標對預測速度與目標速度進行軌跡對齊來進一步優化。為了保持輸出與文本提示一致並防止重複生成,我們引入了一個基於參考視頻傅里葉變換相位分量的正則化項,將相位角投影到平滑流形上以抑制高頻偽影。基準測試的實驗表明,RoPECraft在質量和數量上均優於所有最近發佈的方法。
圖像中的隱喻理解仍然是人工智慧系統面臨的關鍵挑戰,現有模型難以把握視覺內容中蘊含的細膩文化、情感和語境含義。儘管多模態大語言模型(MLLMs)在基礎的視覺問答(VQA)任務上表現出色,但在圖像隱含意義任務上卻存在根本性限制:語境缺失導致不同視覺元素及其抽象意義之間的關係模糊不清。受人類認知過程的啟發,我們提出了“讓安卓夢見”(LAD)這一新穎框架,用於圖像隱含意義的理解與推理。LAD通過三階段框架解決語境缺失問題:(1)感知:將視覺信息轉化為豐富的多層次文本表示;(2)搜索:迭代搜索並整合跨領域知識以消除歧義;(3)推理:通過顯式推理生成與語境對齊的圖像隱含意義。我們的框架結合輕量級GPT-4o-mini模型,在英文圖像隱含意義基準測試中相較於15+個MLLMs達到了SOTA性能,並在中文基準測試上實現了顯著提升,在選擇題(MCQ)上與GPT-4o模型表現相當,在開放式問題(OSQ)上則超出36.7%。此外,我們的工作為AI如何更有效地解讀圖像隱含意義提供了新見解,推動了視覺語言推理和人機互動領域的發展。我們的項目已公開於https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep。
大型語言模型(LLMs)是否能在應當知曉的情況下承認自己的錯誤?在本研究中,我們將模型對先前生成答案中錯誤的承認行為定義為「撤回」,並旨在理解LLMs何時以及為何選擇撤回。我們首先構建了模型特定的數據集,以評估模型是否會撤回與其自身參數化知識相矛盾的不正確答案。雖然LLMs具備撤回的能力,但它們這樣做的頻率卻很低。我們證明,撤回行為與先前識別的模型內部信念指標密切相關:模型未能撤回那些它們「相信」事實正確的錯誤答案。引導實驗進一步表明,內部信念因果性地影響模型的撤回行為。特別是,當模型不相信其答案時,這不僅促使模型嘗試驗證答案,還改變了自我驗證過程中的注意力行為。最後,我們展示瞭簡單的監督微調通過幫助模型學習更準確的內部信念,顯著提升了撤回性能。代碼和數據集可在https://github.com/ayyyq/llm-retraction獲取。
視覺語言模型(VLMs)通過互聯網規模的圖像-文本語料庫獲取現實世界的知識和通用推理能力。它們能夠增強機器人系統的場景理解與任務規劃能力,並輔助基於機器人軌跡數據訓練的視覺運動策略。我們探索了一種逆向範式——利用豐富、真實的多模態機器人軌跡數據來提升和評估VLMs。本文中,我們提出了Robo2VLM,一個專為VLMs設計的視覺問答(VQA)數據集生成框架。給定一條由人類遙控操作的機器人軌跡,Robo2VLM從非視覺和非描述性的感知模態(如末端執行器姿態、夾爪開合度及力覺傳感)中提取真實標註。基於這些模態,它將機器人軌跡分割為一系列操作階段。在每個階段,Robo2VLM利用場景和交互理解來識別機器人的三維屬性、任務目標及目標物體。這些屬性被用於生成代表性的VQA查詢——即帶有多選題文本的圖像——基於空間、目標條件及交互推理的問題模板。我們構建了Robo2VLM-1,一個大規模的野外數據集,包含684,710個問題,覆蓋463個不同場景和來自176k條真實機器人軌跡的3,396個機器人操作任務。結果表明,Robo2VLM-1能夠在空間和交互推理方面對VLM的能力進行基準測試和提升。
儘管大型視覺語言模型(LVLMs)已取得顯著進展,但在其可解釋性以及如何定位和解釋圖像中的文本信息方面仍存在差距。本文探討了多種LVLMs,以識別負責從圖像中識別文本的特定頭部,我們稱之為光學字符識別頭(OCR Head)。關於這些頭部的發現如下:(1)稀疏性較低:與先前的檢索頭不同,大量頭部被激活以從圖像中提取文本信息。(2)質性差異:OCR頭部具有與一般檢索頭部顯著不同的特性,其特徵相似度較低。(3)靜態激活:這些頭部的激活頻率與其OCR分數高度一致。我們在下游任務中驗證了這些發現,通過將思維鏈(CoT)應用於OCR和傳統檢索頭部,並對這些頭部進行遮罩。我們還展示了在OCR頭部內重新分配匯聚標記值可以提升性能。這些見解提供了對LVLMs處理圖像中嵌入文本信息的內部機制的深入理解。
随着视觉语言模型(VLMs)日益融入日常生活,对精准视觉文化理解的需求变得至关重要。然而,这些模型在有效解读文化细微差别方面常常表现不足。先前的研究已证明,在纯文本环境中,检索增强生成(RAG)在提升文化理解方面具有显著效果,但其在多模态场景中的应用仍待深入探索。为填补这一空白,我们推出了RAVENEA(检索增强视觉文化理解),这是一个旨在通过检索推进视觉文化理解的新基准,聚焦于两项任务:文化导向的视觉问答(cVQA)和文化启发的图像描述(cIC)。RAVENEA通过整合由人工标注者筛选并排序的超过10,000份维基百科文档,扩展了现有数据集。利用RAVENEA,我们为每幅图像查询训练并评估了七种多模态检索器,并测量了检索增强输入对十四种最先进VLMs的下游影响。结果显示,当轻量级VLMs与文化感知检索相结合时,其表现超越了未增强的模型(在cVQA上至少提升3.2%,在cIC上提升6.2%)。这凸显了检索增强方法及文化包容性基准在多模态理解中的价值。
现代BPE分词器常将日历日期分割成无意义的片段,例如将20250312分解为202、503、12,这不仅增加了token数量,还模糊了进行稳健时间推理所需的内在结构。在本研究中,我们(1)引入了一个简单但可解释的指标,称为日期碎片化比率,用于衡量分词器对多位数日期成分的保留程度;(2)发布了DateAugBench,这是一个包含6500个示例的测试集,涵盖三个时间推理任务:基于上下文的日期解析、格式不变性谜题以及跨越历史、当代和未来时期的日期算术;(3)通过层次化探测和因果注意力跳分析,揭示了一种新兴的日期抽象机制,大型语言模型通过该机制将月、日、年成分的片段拼接起来进行时间推理。我们的实验表明,过度的碎片化与罕见日期(如历史和未来日期)上高达10个百分点的准确率下降相关。此外,我们发现模型越大,完成修复日期片段的新兴日期抽象过程就越快。最后,我们观察到大型语言模型在组装日期片段时遵循的推理路径,通常与人类的理解(年→月→日)有所不同。
我們引入了一個新穎的數據集,旨在基於拓撲優化方法來評估大型語言模型(LLM)的物理與空間推理能力。該方法用於在給定載荷和支撐條件下,計算設計空間內的最優材料分佈。在此數據集中,LLM會獲得如二維邊界、施加的力與支撐等條件,並需推理出相應的最優材料分佈。數據集包含多樣化的任務,從填充部分結構中的遮罩區域到預測完整的材料分佈不等。解決這些任務需要理解力的傳遞及在特定約束下所需的材料分佈,而無需借助仿真工具或顯式的物理模型,從而挑戰模型對結構穩定性與空間組織的推理能力。我們的數據集專注於二維環境下的空間與物理推理能力評估,為傳統語言與邏輯基準提供了一個互補的視角。
通過對從擾動輸入中合成連貫圖像進行預訓練,生成模型本質上學會了理解物體邊界和場景構圖。我們如何將這些生成表示重新用於通用感知組織?我們使用實例著色損失,專門針對一組狹窄的物體類型(室內家具和汽車),對Stable Diffusion和MAE(編碼器+解碼器)進行微調,以實現類別無關的實例分割。令人驚訝的是,我們的模型展現出強大的零樣本泛化能力,能夠準確分割在微調中未見過的物體類型和風格(在許多情況下,MAE的ImageNet-1K預訓練也未見過)。我們表現最佳的模型在評估未見過的物體類型和風格時,接近於高度監督的SAM,並且在分割精細結構和模糊邊界時表現更優。相比之下,現有的可提示分割架構或判別式預訓練模型無法泛化。這表明生成模型學習了一種跨類別和領域的內在分組機制,即使沒有互聯網規模的預訓練。代碼、預訓練模型和演示可在我們的網站上獲取。
大型音頻語言模型(LALMs)通過整合語音、音頻等多模態理解能力,擴展了大型語言模型的應用範圍。儘管這些模型在語音和音頻處理任務上的表現已得到廣泛研究,但其推理能力仍未被充分探索。特別是,它們的多跳推理能力——即回憶並整合多個事實的能力——缺乏系統性的評估。現有的基準測試主要關注於一般的語音和音頻處理任務、對話能力以及公平性,卻忽視了這一關鍵方面。為填補這一空白,我們引入了SAKURA,這是一個基於語音和音頻信息來評估LALMs多跳推理能力的基準測試。結果顯示,即便LALMs能夠正確提取相關信息,它們在整合語音/音頻表徵以進行多跳推理時仍面臨困難,這揭示了多模態推理中的一個根本性挑戰。我們的研究發現暴露了LALMs的一個關鍵限制,為未來研究提供了洞見和資源。