每日精選AI研究論文及翻譯
大型语言模型(LLMs)的影响已超越自然语言处理领域,极大地推动了跨学科研究的发展。近期,多种基于LLM的智能体被开发出来,以协助科学发现的进程,涵盖多个方面与领域。其中,能够像人类一样与操作系统交互的计算机使用智能体,正为自动化解决科学问题及处理研究人员工作流程中的常规任务开辟道路。认识到这些智能体的变革潜力,我们推出了ScienceBoard,其包含两项互补性贡献:(i)一个现实的多领域环境,具备动态且视觉丰富的科学工作流程,并集成了专业软件,智能体可通过不同界面自主交互,以加速复杂研究任务与实验的完成;(ii)一个由人类精心策划的、包含169项高质量且严格验证的现实世界任务的挑战性基准,这些任务横跨生物化学、天文学及地理信息学等领域的科学发现工作流程。对搭载最先进核心(如GPT-4o、Claude 3.7、UI-TARS)的智能体进行的广泛评估显示,尽管取得了一些令人鼓舞的成果,它们在可靠协助科学家处理复杂工作流程方面仍显不足,整体成功率仅为15%。深入分析进一步为解决当前智能体局限性和设计更有效的原则提供了宝贵见解,为构建更强大的科学发现智能体铺平了道路。我们的代码、环境及基准可访问https://qiushisun.github.io/ScienceBoard-Home/获取。
學術海報生成是科學傳播中一項關鍵且具挑戰性的任務,需要將長篇交織的文檔壓縮成單一、視覺連貫的頁面。為應對這一挑戰,我們首次引入了海報生成的基準測試與評估指標套件,該套件將近期會議論文與作者設計的海報配對,並從以下方面評估輸出:(i)視覺質量——與人類設計海報的語義對齊,(ii)文本連貫性——語言流暢度,(iii)整體評估——由視覺語言模型(VLM)作為評判者對六項細緻的美學與信息標準進行評分,以及尤為重要的(iv)論文測驗——海報傳達論文核心內容的能力,通過VLM回答生成測驗來衡量。基於此基準,我們提出了PosterAgent,一種自上而下、視覺在環的多智能體流程:(a)解析器將論文提煉成結構化的資源庫;(b)規劃器將文本-視覺對齊為二元樹佈局,保持閱讀順序與空間平衡;(c)繪製-評論循環通過執行渲染代碼並利用VLM反饋來消除溢出並確保對齊,從而精修每個面板。在全面評估中,我們發現GPT-4o的輸出雖然初看視覺吸引人,但常伴有雜亂文本與低論文測驗分數,且讀者參與度是主要的美學瓶頸,因為人類設計的海報主要依賴視覺語義來傳達意義。我們完全開源的變體(如基於Qwen-2.5系列)在幾乎所有指標上均優於現有的4o驅動多智能體系統,同時減少了87%的token使用量。它將22頁的論文轉化為最終可編輯的.pptx海報——僅需0.005美元。這些發現為下一代全自動海報生成模型指明了清晰方向。代碼與數據集可在https://github.com/Paper2Poster/Paper2Poster獲取。
邏輯推理是人類智能的核心要素,也是多模態大語言模型(MLLMs)不可或缺的能力。儘管多模態推理領域取得了顯著進展,但現有的基準測試未能全面評估其推理能力,原因在於缺乏對邏輯推理類型的明確分類以及對推理理解的模糊性。為解決這些問題,我們提出了MME-Reasoning,這是一個旨在評估MLLMs推理能力的綜合基準測試,其問題涵蓋了所有三種推理類型(即歸納、演繹和溯因)。我們精心策劃數據,確保每個問題都能有效評估推理能力而非感知技能或知識廣度,並擴展評估協議以涵蓋多樣化問題的評估。我們的評估揭示了在對邏輯推理能力進行全面評估時,最先進的MLLMs存在顯著限制。即使是最先進的MLLMs在綜合邏輯推理中也表現出有限的性能,且在不同推理類型間存在明顯的性能失衡。此外,我們深入分析了如「思維模式」和基於規則的強化學習等方法,這些方法通常被認為能增強推理能力。這些發現凸顯了當前MLLMs在多樣化邏輯推理場景中的關鍵限制和性能失衡,為理解和評估推理能力提供了全面且系統的見解。
近期如OpenAI-o1和DeepSeek R1等進展,已展示強化學習(RL)在提升大型語言模型(LLMs)推理能力方面的潛力。儘管開源複製工作主要集中於數學和編程領域,開發通用推理能力的方法與資源仍未被充分探索。這一空白部分歸因於收集適合RL的多樣化且可驗證的推理數據的挑戰。我們假設邏輯推理對於開發通用推理能力至關重要,因為邏輯構成了推理的基本構建塊。在本研究中,我們介紹了SynLogic,一個數據合成框架及數據集,它能夠大規模生成多樣化的邏輯推理數據,涵蓋35種不同的邏輯推理任務。SynLogic方法允許控制數據的合成,包括難度和數量的可調節性。重要的是,所有示例均可通過簡單規則驗證,使其非常適合於帶有可驗證獎勵的RL訓練。在我們的實驗中,我們基於7B和32B模型驗證了在SynLogic數據集上進行RL訓練的有效性。SynLogic在開源數據集中達到了領先的邏輯推理性能,在BBEH上超越了DeepSeek-R1-Distill-Qwen-32B 6分。此外,將SynLogic數據與數學和編程任務混合,不僅提高了這些領域的訓練效率,還顯著增強了推理的泛化能力。值得注意的是,我們的混合訓練模型在多個基準測試中均優於DeepSeek-R1-Zero-Qwen-32B。這些發現使SynLogic成為推進LLMs更廣泛推理能力的寶貴資源。我們在https://github.com/MiniMax-AI/SynLogic開源了數據合成管道及SynLogic數據集。
擴散模型在圖像風格化方面取得了顯著進展,但仍面臨兩個核心挑戰:(1) 在複雜場景中保持一致的風格化,特別是身份、構圖和細節方面;(2) 在基於風格LoRA的圖像到圖像處理流程中防止風格退化。GPT-4o在風格化一致性上的卓越表現凸顯了開源方法與專有模型之間的性能差距。為彌補這一差距,我們提出了OmniConsistency,這是一個利用大規模擴散變換器(DiTs)的通用一致性插件。OmniConsistency的貢獻包括:(1) 基於對齊圖像對訓練的上下文一致性學習框架,實現了強大的泛化能力;(2) 兩階段漸進學習策略,將風格學習與一致性保持解耦,以減輕風格退化;(3) 完全即插即用的設計,兼容Flux框架下的任意風格LoRA。大量實驗表明,OmniConsistency顯著提升了視覺連貫性和美學質量,達到了與商業頂尖模型GPT-4o相當的性能。
近期一項研究表明,大型語言模型(LLMs)能夠通過僅從一個經過特殊訓練的輸入嵌入進行自回歸生成,重建出驚人長度的文本——多達數千個標記。在本研究中,我們探討了是否可以在不使用自回歸的情況下實現此類重建。我們證明,當僅提供兩個學習到的嵌入時,凍結的LLMs僅需一次前向傳播即可生成數百個準確的標記。這揭示了LLMs一項令人驚訝且尚未被充分探索的能力——無需迭代解碼的多標記生成。我們研究了這些嵌入的行為,並深入探討了它們所編碼的信息類型。我們還通過實驗證明,儘管這些表示對於給定文本並非唯一,但它們在嵌入空間中形成了連通且局部的區域——這一特性暗示了學習專用編碼器進入該空間的潛力。
推理大型語言模型(LLMs)在執行複雜推理任務時,主要依賴於擴展測試時的計算資源,通過生成大量的“思考”鏈來實現。儘管這種方法展示了令人印象深刻的成果,但它也帶來了顯著的計算成本和推理時間。在本研究中,我們挑戰了“更長的思考鏈會帶來更好的推理能力”這一假設。我們首先證明,在單個問題中,較短的推理鏈顯著更有可能得出正確答案——比同一問題中最長鏈的準確率高出最多34.5%。基於這些結果,我們提出了short-m@k,一種新穎的推理LLM推理方法。該方法並行執行k次獨立生成,並在完成前m個思考過程後停止計算。最終答案通過這些m個鏈的多數投票選出。基本的short-1@k在低計算設置下表現出與標準多數投票相似甚至更優的性能——最多減少40%的思考標記。short-3@k雖然效率略低於short-1@k,但在所有計算預算下始終超越多數投票,同時仍顯著更快(最多減少33%的實際時間)。受我們結果的啟發,我們使用短、長和隨機選擇的推理鏈對LLM進行了微調。隨後觀察到,基於較短鏈的訓練能帶來更好的性能。我們的研究結果提示,應重新審視當前推理LLM中測試時計算的方法,強調更長的“思考”並不一定轉化為性能提升,反而可能導致結果退化。
主題到視頻(S2V)生成旨在創建能夠忠實融入參考內容的視頻,從而提供更靈活的視頻製作方式。為了建立S2V生成的基礎設施,我們提出了OpenS2V-Nexus,該框架包括(i)OpenS2V-Eval,一個細粒度的基準測試,以及(ii)OpenS2V-5M,一個百萬規模的數據集。與現有繼承自VBench的S2V基準測試不同,後者主要關注生成視頻的全局和粗粒度評估,而OpenS2V-Eval則專注於模型生成主題一致視頻的能力,確保主題外觀自然且身份保真。為此,OpenS2V-Eval引入了來自七個主要S2V類別的180個提示,這些提示結合了真實和合成的測試數據。此外,為了精確對齊人類偏好與S2V基準測試,我們提出了三個自動化指標——NexusScore、NaturalScore和GmeScore,分別量化生成視頻中的主題一致性、自然度和文本相關性。基於此,我們對16個具有代表性的S2V模型進行了全面評估,突出了它們在不同內容上的優勢和不足。此外,我們創建了首個開源的大規模S2V生成數據集OpenS2V-5M,該數據集包含五百萬個高質量720P的主題-文本-視頻三元組。具體來說,我們通過(1)分割主題並通過跨視頻關聯建立配對信息,以及(2)在原始幀上提示GPT-Image-1以合成多視角表示,確保了數據集中主題信息的多樣性。通過OpenS2V-Nexus,我們提供了一個堅實的基礎設施,以加速未來S2V生成研究的發展。
提升大型語言模型(LLM)推理能力的測試時縮放(TTS)方法,通常因過度依賴外部過程獎勵模型(PRMs)或如最佳N選取(BoN)的抽樣方法而產生顯著的計算成本。本文介紹了「直覺引導」(GG),一種高效的自我引導TTS框架,該框架在不依賴昂貴外部驗證模型的情況下,達到了PRM級別的表現。我們的方法採用了一種輕量級的樹搜索,僅由LLM內在信號、詞元級置信度及步驟新穎性引導。一項關鍵創新是通過針對性的強化學習微調階段,提升了內部置信度估計的可靠性。在具挑戰性的數學推理基準上的實證評估顯示,GG使較小模型(例如1.5B參數)能夠達到或超越顯著更大模型(例如32B-70B參數)的準確性,同時將GPU記憶體使用量減少高達10倍。與基於PRM的方法相比,GG在保持相當準確性的同時,實現了8倍的推理速度提升及4-5倍的記憶體使用降低。此外,與BoN策略相比,GG將KV快取記憶體使用量減少了約50%,促進了TTS技術更高效且實際的部署。
近期,多模态大语言模型(MLLMs)的进展实现了对语言、视觉及结构化输入的统一处理,为逻辑推理、空间推理及科学分析等复杂任务开启了大门。尽管前景广阔,MLLMs,尤其是那些通过中间思维轨迹增强的模型(MLLMs-T),其推理能力仍鲜为人知,且缺乏标准化的评估基准。现有研究主要关注感知或最终答案的正确性,对模型跨模态推理或失败的方式提供有限洞察。为填补这一空白,我们引入了MMMR,一个旨在严格评估带有明确思维的多模态推理的新基准。MMMR包含:1)一个高难度数据集,涵盖六种多样化推理类型的1083个问题,具有符号深度和多跳需求;2)一个模块化的推理轨迹评估管道(RTEP),用于通过相关性、一致性及结构化错误注释等指标,超越准确性评估推理质量。实证结果显示,MLLMs-T总体上优于无思维增强的模型,但即使是Claude-3.7-Sonnet和Gemini-2.5 Pro等顶尖模型,也面临不一致和过度思考等推理缺陷。此基准揭示了准确性与推理质量之间的持续差距,并为未来模型开发提供了可操作的评估管道。总体而言,MMMR为评估、比较及改进下一代多模态推理系统奠定了可扩展的基础。
大型語言模型(LLMs)在函數級代碼生成方面的最新進展顯示出潛力,然而倉庫級軟件工程任務仍然具有挑戰性。目前的解決方案主要依賴於專有的LLM代理,這引入了不可預測性並限制了可訪問性,引發了對數據隱私和模型定制化的擔憂。本文探討了開源LLMs是否能夠在不依賴基於代理的方法的情況下有效處理倉庫級任務。我們通過使LLMs能夠理解代碼庫中函數和文件的語義信息及結構依賴性,證明了這一可能性。為此,我們引入了代碼圖模型(CGMs),該模型將倉庫代碼圖結構整合到LLM的注意力機制中,並使用專門的適配器將節點屬性映射到LLM的輸入空間。當與無代理的圖RAG框架結合時,我們的方法在SWE-bench Lite基準測試中使用開源Qwen2.5-72B模型達到了43.00%的解決率。這一性能在開源權重模型中排名第一,在開源系統方法中排名第二,總體排名第八,超越了之前最佳的基於開源模型的方法12.33%。
將強化學習(Reinforcement Learning, RL)應用於視頻大型語言模型(Video-LLMs)在複雜視頻推理方面展現出顯著潛力。然而,流行的強化微調(Reinforcement Fine-Tuning, RFT)方法,如基於結果的群組相對策略優化(Group Relative Policy Optimization, GRPO),受到數據準備瓶頸(例如噪音或高成本)的限制,並且在長鏈思維(Chain-of-Thoughts, CoTs)質量和下游性能方面表現出不穩定的改進。為解決這些限制,我們提出了VerIPO,一種驗證器引導的迭代策略優化方法,旨在逐步提升視頻LLMs生成深度、長期推理鏈的能力。其核心組件是Rollout-Aware Verifier,位於GRPO和直接偏好優化(Direct Preference Optimization, DPO)訓練階段之間,形成GRPO-Verifier-DPO訓練循環。該驗證器利用小型LLMs作為評判者來評估rollouts的推理邏輯,從而構建高質量的對比數據,包括反思性和上下文一致的CoTs。這些精心挑選的偏好樣本驅動了高效的DPO階段(比GRPO快7倍),顯著提升了推理鏈的質量,特別是在長度和上下文一致性方面。此訓練循環受益於GRPO的廣泛搜索和DPO的定向優化。實驗結果表明:1)與標準GRPO變體相比,顯著更快且更有效的優化,產生了更優的性能;2)我們訓練的模型超越了直接推理的大規模指令微調Video-LLMs,在多樣化的視頻推理任務中生成長且上下文一致的CoTs;3)我們經過一次迭代的模型超越了強大的LMMs(例如Kimi-VL)和長推理模型(例如Video-R1),凸顯了其有效性和穩定性。
擴散變換器(DiTs)在視頻生成中至關重要,但由於注意力機制的二次方複雜性,存在顯著的延遲問題。通過僅計算關鍵令牌,稀疏注意力降低了計算成本,並提供了一種有前景的加速方法。然而,我們發現現有方法在相同計算預算下無法達到最佳生成質量,原因有二:(1)關鍵令牌識別不準確:當前方法基於位置而非語義對令牌進行聚類,導致聚合表示不精確。(2)過多的計算浪費:關鍵令牌分散在非關鍵令牌中,導致在GPU上進行了浪費的計算,而GPU是為處理連續令牌而優化的。本文中,我們提出了SVG2,這是一個無需訓練的框架,旨在最大化識別準確性並最小化計算浪費,實現生成質量與效率之間的帕累托前沿權衡。SVG2的核心是語義感知排列,它使用k-means基於語義相似性對令牌進行聚類和重新排序。這種方法確保了精確的聚類表示,提高了識別準確性,並使關鍵令牌的佈局更加密集,從而實現無需填充的高效計算。此外,SVG2集成了top-p動態預算控制和定製內核實現,在保持HunyuanVideo和Wan 2.1上PSNR分別高達30和26的同時,實現了最高2.30倍和1.89倍的加速。
多模态大語言模型(MLLMs)在靜態圖像的光學字符識別(OCR)任務中已取得顯著準確度。然而,由於視頻內容中固有的運動模糊、時間變化及視覺效果等因素,其在視頻OCR中的效能大幅降低。為提供更清晰的實用MLLMs訓練指導,我們引入了MME-VideoOCR基準,該基準涵蓋了廣泛的視頻OCR應用場景。MME-VideoOCR包含10個任務類別,共計25個獨立任務,並跨越44種多樣化場景。這些任務不僅限於文本識別,還涉及對視頻中文本內容的更深層次理解與推理。該基準由1,464段分辨率、寬高比和時長各異的視頻,以及2,000對精心策劃、人工標註的問答對組成。我們在MME-VideoOCR上評估了18個最先進的MLLMs,結果顯示,即使表現最佳的模型(Gemini-2.5 Pro)也僅達到73.7%的準確率。細粒度分析表明,現有MLLMs在相關文本集中於單一或少數幀的任務上表現強勁,但在需要整體視頻理解的任務上能力有限。這些限制在需要時空推理、跨幀信息整合或抵抗語言先驗偏見的場景中尤為明顯。我們的研究結果還強調了高分辨率視覺輸入和足夠的時間覆蓋對於動態視頻場景中可靠OCR的重要性。
本文介绍了UI-Genie,一种自我优化的框架,旨在解决图形用户界面(GUI)代理中的两大关键挑战:轨迹结果的验证难度大以及高质量训练数据的可扩展性不足。这些挑战分别通过奖励模型和自我优化流程得以应对。奖励模型UI-Genie-RM采用图像文本交错架构,高效处理历史上下文,并统一了动作级别与任务级别的奖励。为支持UI-Genie-RM的训练,我们开发了精心设计的数据生成策略,包括基于规则的验证、受控轨迹破坏及困难负样本挖掘。针对第二个挑战,自我优化流程通过奖励引导的探索和动态环境中的结果验证,逐步扩展可解决的复杂GUI任务,同时提升代理与奖励模型。为模型训练,我们生成了UI-Genie-RM-517k和UI-Genie-Agent-16k数据集,建立了首个专为GUI代理设计的奖励特定数据集,并展示了无需人工标注即可生成高质量合成轨迹的能力。实验结果表明,UI-Genie在多个GUI代理基准测试中实现了最先进的性能,历经三代数据模型的自我优化。我们开源了完整的框架实现及生成的数据集,以促进进一步研究,详见https://github.com/Euphoria16/UI-Genie。
低秩適應(LoRA)是一種廣受歡迎的生成模型參數高效微調(PEFT)方法,因其簡潔性和有效性而備受推崇。儘管近期有所改進,LoRA仍存在一個根本性限制:當瓶頸擴大時容易過擬合。它在秩為32-64時表現最佳,但在更高秩時其準確性停滯或下降,仍無法達到全量微調(FFT)的性能。我們發現其根本原因在於LoRA的結構性瓶頸,這會將不相關的輸入通道引入梯度糾纏,並扭曲梯度傳播。為解決這一問題,我們提出了一種新結構——粒度低秩適應(GraLoRA),它將權重矩陣劃分為子塊,每個子塊都有自己的低秩適配器。在幾乎不增加計算或存儲成本的情況下,GraLoRA克服了LoRA的侷限性,有效提升了表示能力,並更接近於FFT的行為。在代碼生成和常識推理基準測試中的實驗表明,GraLoRA始終優於LoRA及其他基線方法,在HumanEval+上實現了高達+8.5%的Pass@1絕對增益。這些改進在不同模型規模和秩設置下均保持一致,使GraLoRA成為一種可擴展且穩健的PEFT解決方案。代碼、數據和腳本可在https://github.com/SqueezeBits/GraLoRA.git獲取。
企業客戶日益採用大型語言模型(LLMs)來處理關鍵的溝通任務,例如撰寫電子郵件、構思銷售提案以及編寫非正式訊息。要在不同地區部署此類模型,必須使其理解多元的文化與語言背景,並生成安全且得體的回應。對於企業應用而言,有效識別並處理不安全或冒犯性語言,以減輕聲譽風險、維護信任並確保合規性,至關重要。為此,我們推出了SweEval,這是一個模擬現實情境的基準測試,涵蓋語氣(正面或負面)與語境(正式或非正式)的變化。提示語明確指示模型在完成任務時包含特定的粗俗詞彙。此基準測試旨在評估LLMs是否遵循或抵制此類不當指令,並檢驗其與倫理框架、文化細微差異及語言理解能力的契合度。為推動構建符合倫理的人工智慧系統的研究,無論是企業應用還是更廣泛的領域,我們公開了數據集與程式碼:https://github.com/amitbcp/multilingual_profanity。
近期在CoT推理和RL後訓練方面的進展被報導能增強多模態大語言模型(MLLMs)的視頻推理能力。這一進展自然引發了一個問題:這些模型能否以類似人類專家的方式進行複雜的視頻推理?然而,現有的視頻基準主要評估視覺感知和基礎能力,其問題可以基於明確提示或孤立的視覺線索來回答。這樣的基準並未完全捕捉現實世界推理的複雜性,在現實中,人類必須主動搜尋、整合並分析多條線索才能得出結論。為解決這一問題,我們提出了Video-Holmes,一個受夏洛克·福爾摩斯推理過程啟發的基準,旨在評估MLLMs的複雜視頻推理能力。Video-Holmes包含從270部手動註釋的懸疑短片中提取的1,837個問題,涵蓋七項精心設計的任務。每項任務的構建首先通過識別影片中的關鍵事件和因果關係,然後設計需要模型主動定位並連接分散在不同視頻片段中的多個相關視覺線索的問題。我們對最先進的MLLMs進行了全面評估,結果顯示,儘管這些模型在視覺感知方面普遍表現出色,但在信息整合方面遇到了重大困難,並且經常錯過關鍵線索。例如,表現最佳的模型Gemini-2.5-Pro的準確率僅為45%,大多數模型的得分低於40%。我們希望Video-Holmes能作為多模態推理的“福爾摩斯測試”,激勵模型更接近人類的推理方式,並強調該領域持續存在的挑戰。該基準已發佈於https://github.com/TencentARC/Video-Holmes。
提升大型語言模型(LLMs)在代碼推理方面的能力,根本上受限於高難度數據集的稀缺性,尤其是那些具備可驗證輸入輸出測試案例的數據集,這些對於大規模嚴格驗證解決方案至關重要。我們引入了rStar-Coder,通過構建一個包含418K競賽級代碼問題、580K長推理解決方案以及豐富多樣難度測試案例的大規模驗證數據集,顯著提升了LLM的代碼推理能力。這一成就基於三項核心貢獻:(1)我們精心挑選競賽編程代碼問題及其標準解決方案,以合成新的可解問題;(2)我們引入了一個可靠的輸入輸出測試案例合成管道,將生成過程分解為三步輸入生成方法及相互驗證機制,以實現有效的輸出標註;(3)我們為問題配備了高質量、經測試案例驗證的長推理解決方案。在Qwen模型(1.5B-14B)上進行的廣泛實驗,涵蓋多種代碼推理基準測試,證明了rStar-Coder數據集的優越性,其表現可與前沿推理LLMs相媲美,而模型規模卻小得多。在LiveCodeBench上,rStar-Coder將Qwen2.5-7B的表現從17.4%提升至令人印象深刻的57.3%,Qwen2.5-14B從23.3%提升至62.5%,超越了o3-mini(低)3.1%。在更具挑戰性的美國計算奧林匹克競賽中,我們的7B模型實現了平均16.15%的pass@1準確率,優於前沿級別的QWQ-32B。代碼及數據集將於https://github.com/microsoft/rStar發布。
近期,采用DeepSeek-R1-Zero风格强化学习(RL)于可验证奖励上训练大型语言模型(LLMs)的范式转变,在代码与数学推理领域取得了显著进展。然而,该方法仅限于那些能够基于规则进行答案验证的任务,难以自然延伸至化学、医疗保健、工程、法律、生物学、商业及经济学等现实世界领域。当前的实际解决方案是引入另一个LLM作为基于模型的验证器,但这带来了诸如依赖强大验证器LLM、易受奖励黑客攻击以及在训练过程中需将验证器模型保留于内存中的实际负担等问题。为解决此问题并将DeepSeek-R1-Zero风格训练扩展至一般推理领域,我们提出了一种无需验证器的方法(VeriFree),该方法绕过答案验证,转而利用RL直接最大化生成参考答案的概率。我们将VeriFree与基于验证器的方法进行了对比,结果表明,除了其显著的实践优势与降低的计算需求外,VeriFree在MMLU-Pro、GPQA、SuperGPQA及数学相关基准测试的广泛评估中,不仅匹配甚至超越了基于验证器的方法。此外,我们从多个视角深入剖析了该方法:作为在统一模型中优雅整合策略与隐式验证器训练的方式,以及作为一种变分优化途径。代码已发布于https://github.com/sail-sg/VeriFree。
人類的社會互動依賴於推斷他人未言明的意圖、情感和信念的能力——這一認知技能植根於心理學中的「心智理論」(Theory of Mind, ToM)概念。儘管大型語言模型(LLMs)在語義理解任務中表現出色,但它們在處理人類交流中固有的模糊性和語境細微差別時仍面臨挑戰。為彌合這一差距,我們提出了MetaMind,這是一個受元認知心理學理論啟發的多智能體框架,旨在模擬人類的社會推理能力。MetaMind將社會理解分解為三個協作階段:(1) 心智理論智能體生成用戶心理狀態(如意圖、情感)的假設,(2) 領域智能體利用文化規範和倫理約束對這些假設進行精煉,(3) 回應智能體生成語境適宜的回應,同時驗證其與推斷意圖的一致性。我們的框架在三個具有挑戰性的基準測試中達到了最先進的性能,在現實世界社交場景中提升了35.7%,在心智理論推理中提升了6.2%。值得注意的是,它首次使LLMs在關鍵心智理論任務上達到了人類水平。消融研究證明了所有組件的必要性,展示了框架在平衡語境合理性、社會適宜性和用戶適應性方面的能力。這項工作推動了AI系統向類人社會智能邁進,並在同理心對話和文化敏感互動中具有應用潛力。代碼可在https://github.com/XMZhangAI/MetaMind 獲取。
在大型語言模型(LLMs)中,尤其是在臨床應用領域,提升複雜任務的表現並實現可解釋的決策制定,需要有效的推理能力。然而,若無需對來自閉源模型(如GPT-4o)蒸餾出的高成本思維鏈(CoT)數據進行監督微調(SFT),這仍具挑戰性。在本研究中,我們提出了AlphaMed,這是首個醫學LLM,展示了僅通過強化學習(RL)並在公開的多項選擇問答數據集上使用極簡規則獎勵,即可湧現出推理能力,而無需依賴SFT或蒸餾的CoT數據。AlphaMed在六個醫學問答基準測試中取得了最先進的成績,超越了採用傳統SFT+RL流程訓練的模型。在具有挑戰性的基準測試(如MedXpert)中,AlphaMed甚至超越了更大規模或閉源模型,如DeepSeek-V3-671B和Claude-3.5-Sonnet。為理解這一成功背後的關鍵因素,我們進行了以數據為中心的全面分析,圍繞三個問題展開:(i) 極簡規則的RL能否在無蒸餾CoT監督的情況下激勵推理?(ii) 數據集的數量和多樣性如何影響推理?(iii) 問題難度如何塑造推理的湧現與泛化?我們的研究發現,數據集的信息量是推理性能的關鍵驅動因素,而在信息豐富的多項選擇問答數據上進行極簡RL,能有效誘導推理而無需CoT監督。我們還觀察到不同基準測試間的差異趨勢,這凸顯了當前評估的局限性以及對更具挑戰性、以推理為導向的醫學問答基準測試的需求。
视频大型语言模型(video LLMs)在视频理解方面表现出色,但由于冗余的视频标记,面临着显著的计算效率低下问题。现有的标记剪枝方法提供了解决方案。然而,在LLM内部操作的剪枝方法(如FastV)在浅层中会产生固有的计算开销。相比之下,在LLM之前进行标记剪枝的方法(外部LLM剪枝)主要解决单个帧内或有限时间窗口内的空间冗余,忽视了跨较长视频序列的关键全局时间动态和相关性。这导致了次优的时空缩减,并未充分利用视频的可压缩性。至关重要的是,结合这些策略的协同潜力和相互影响尚未被探索。为了进一步减少冗余,我们引入了HoliTom,一种新颖的无训练整体标记合并框架。HoliTom通过全局冗余感知的时间分割进行外部LLM剪枝,随后进行时空合并,将视觉标记减少超过90%,显著减轻了LLM的计算负担。作为补充,我们引入了一种基于内部LLM标记相似性的稳健合并方法,旨在实现卓越的性能并与外部LLM剪枝兼容。评估表明,我们的方法在LLaVA-OneVision-7B上实现了有前景的效率-性能权衡,将计算成本降低至FLOPs的6.9%,同时保持了原始性能的99.1%。此外,我们实现了首次标记时间(TTFT)的2.28倍减少和解码吞吐量的1.32倍加速,突显了我们集成剪枝方法在高效视频LLM推理中的实际优势。
利用交互式运动控制为图像赋予动态效果,在图像到视频(I2V)生成领域已广受欢迎。现有方法通常依赖大尺度高斯核来扩展运动轨迹作为条件,而无需明确界定运动区域,这导致了粗糙的运动控制,并难以区分物体与相机的移动。为解决这些问题,我们提出了MotionPro,一种精确的运动控制器,创新性地利用区域轨迹和运动掩码,分别调控细粒度运动合成及识别目标运动类别(即物体移动或相机移动)。技术上,MotionPro首先通过跟踪模型估计每段训练视频的光流图,随后采样区域轨迹以模拟推理场景。与通过大高斯核扩展光流不同,我们的区域轨迹方法直接利用局部区域内的轨迹,实现了更精确的控制,从而有效刻画了细粒度运动。同时,从预测的光流图中提取运动掩码,以捕捉运动区域的整体动态。为追求自然的运动控制,MotionPro进一步通过特征调制结合区域轨迹和运动掩码,增强了视频去噪。尤为值得一提的是,我们精心构建了一个包含1.1K用户标注的图像-轨迹对的基准测试集,即MC-Bench,用于评估细粒度及物体级别的I2V运动控制。在WebVid-10M和MC-Bench上进行的广泛实验验证了MotionPro的有效性。更多结果请访问我们的项目页面:https://zhw-zhang.github.io/MotionPro-page/。
多語言對齊是一種有效且具代表性的範式,用以增強大型語言模型(LLMs)的多語言能力,它將高資源語言的效能轉移至低資源語言。同時,一些關於語言特定神經元的研究揭示,LLMs在處理不同語言時,會選擇性地激活這些語言特定的神經元。這為更精細地分析和理解LLMs在多語言情境下的運作機制提供了新的視角。在本研究中,我們提出了一種新的、更細粒度的神經元識別算法,該算法能夠檢測語言神經元(包括語言特定神經元和語言相關神經元)以及語言無關神經元。此外,基於不同類型神經元的分佈特徵,我們將LLMs的多語言推理內部過程劃分為四個部分:(1)多語言理解,(2)共享語義空間推理,(3)多語言輸出空間轉換,以及(4)詞彙空間輸出。另外,我們系統地分析了對齊前後的模型,重點關注不同類型的神經元。我們還分析了「自發多語言對齊」現象。總體而言,我們的工作基於不同類型的神經元進行了全面的調查,為更好地理解LLMs的多語言對齊和多語言能力提供了實證結果和寶貴見解。
可控性、時間一致性與細節合成仍是視訊生成中最為關鍵的挑戰。本文聚焦於一種常用卻未充分探索的電影技術——「入鏡與出鏡」。具體而言,從圖像到視訊的生成出發,使用者能夠控制圖像中的物體自然離開場景,或根據使用者指定的運動軌跡引入全新的身份參考進入場景。為支援此任務,我們引入了一個半自動策劃的新數據集、針對此情境的全面評估協議,以及一個高效的身份保持運動可控視訊擴散變換器架構。評估結果表明,我們提出的方法顯著優於現有基線。
近期生成模型的進展已實現了高保真度的文本到圖像生成。然而,開源圖像編輯模型仍落後於其專有版本,主要受限於高質量數據的缺乏及基準測試的不足。為克服這些限制,我們推出了ImgEdit,這是一個大規模、高質量的圖像編輯數據集,包含120萬對精心策劃的編輯配對,涵蓋新穎且複雜的單次編輯,以及具有挑戰性的多輪任務。為確保數據質量,我們採用了一個多階段處理流程,整合了前沿的視覺語言模型、檢測模型、分割模型,以及針對特定任務的圖像修復程序和嚴格的後處理步驟。ImgEdit在任務新穎性和數據質量上均超越了現有數據集。利用ImgEdit,我們訓練了ImgEdit-E1,這是一個使用視覺語言模型處理參考圖像和編輯提示的編輯模型,在多項任務上表現優於現有的開源模型,彰顯了ImgEdit的價值及模型設計的優勢。為全面評估,我們引入了ImgEdit-Bench,這是一個旨在從指令遵循、編輯質量和細節保留三個維度評估圖像編輯性能的基準測試。它包括基礎測試集、挑戰性的單輪測試集和專門的多輪測試集。我們對開源和專有模型以及ImgEdit-E1進行了評估,提供了對當前圖像編輯模型行為的深入分析和可操作的見解。源數據已公開於https://github.com/PKU-YuanGroup/ImgEdit。
在許多實際應用中,部署的模型會遇到與訓練期間所見數據不同的輸入。分佈外檢測(Out-of-distribution detection)旨在識別輸入是否來自未見過的分佈,而開放世界識別(open-world recognition)則標記此類輸入,以確保系統在不斷出現的、先前未知的類別出現時仍能保持穩健,並且無需重新訓練即可應對。基礎模型和視覺語言模型(vision-language models)在大型且多樣化的數據集上進行預訓練,期望能夠跨領域廣泛泛化,包括醫學影像。然而,在僅包含少數常見異常類型的測試集上對這些模型進行基準測試,會無聲地將評估回歸到封閉集問題,掩蓋了在臨床使用中遇到的罕見或真正新穎情況下的失敗。 因此,我們提出了NOVA,這是一個具有挑戰性、僅用於評估的現實生活基準,包含900個模擬腦部MRI掃描,涵蓋281種罕見病理和異質性採集協議。每個案例都包含豐富的臨床敘述和雙盲專家邊界框註釋。這些共同促進了對異常定位、視覺描述和診斷推理的聯合評估。由於NOVA從不用於訓練,它作為分佈外泛化的極端壓力測試:模型必須在樣本外觀和語義空間上跨越分佈差距。使用領先的視覺語言模型(GPT-4o、Gemini 2.0 Flash和Qwen2.5-VL-72B)的基線結果顯示,在所有任務中性能大幅下降,這表明NOVA是一個嚴格的測試平台,用於推進能夠檢測、定位和推理真正未知異常的模型。
本文提出DetailFlow,一種從粗到細的一維自迴歸(AR)圖像生成方法,通過新穎的下一細節預測策略來建模圖像。DetailFlow通過學習以逐步降質圖像監督的分辨率感知標記序列,使生成過程能夠從全局結構開始並逐步細化細節。這種從粗到細的一維標記序列與自迴歸推理機制高度契合,為AR模型生成複雜視覺內容提供了一種更自然且高效的方式。我們緊湊的一維AR模型在顯著少於先前方法(如VAR/VQGAN)的標記數量下實現了高質量的圖像合成。我們進一步提出了一種帶有自我校正的並行推理機制,將生成速度提升約8倍,同時減少了教師強制監督中固有的累積採樣誤差。在ImageNet 256x256基準測試中,我們的方法僅使用128個標記便達到了2.96 gFID,優於需要680個標記的VAR(3.3 FID)和FlexVAR(3.05 FID)。此外,由於顯著減少的標記數量和並行推理機制,我們的方法在推理速度上比VAR和FlexVAR快了近2倍。大量實驗結果表明,DetailFlow在生成質量和效率上均優於現有的最先進方法。
主動視覺,亦稱主動感知,指的是主動選擇觀察位置與方式以收集任務相關信息的過程。它是人類及高級具身智能體實現高效感知與決策的關鍵組成部分。近年來,多模態大語言模型(MLLMs)作為機器人系統中的核心規劃與決策模塊,已引起廣泛關注。然而,儘管主動感知在具身智能中至關重要,關於如何使MLLMs具備或學習主動感知能力的研究卻寥寥無幾。本文首先系統地定義了基於MLLM的主動感知任務,並指出近期提出的GPT-o3模型的放大搜索策略可視為主動感知的一種特例,但其仍存在搜索效率低和區域選擇不準確的問題。為解決這些問題,我們提出了ACTIVE-O3,這是一個完全基於強化學習的訓練框架,構建於GRPO之上,旨在賦予MLLMs主動感知能力。我們進一步建立了一套全面的基準測試集,用於評估ACTIVE-O3在通用開放世界任務(如小物體和密集物體定位)及特定領域場景(包括遙感小物體檢測、自動駕駛以及細粒度交互式分割)中的表現。此外,ACTIVE-O3在V*基準測試中展現了強大的零樣本推理能力,而無需依賴任何顯式推理數據。我們希望本工作能提供一個簡潔的代碼庫和評估協議,以促進未來在MLLMs中主動感知研究的發展。
精確控制語言模型的生成對於確保安全性和可靠性至關重要。儘管提示工程和引導技術常被用於干預模型行為,但模型中龐大的參數量往往導致內部表示高度交織。這種相互依賴性可能限制控制精度,有時甚至會引發意外的副作用。近期研究探索了使用稀疏自編碼器(SAE)在高維空間中解構知識以實現引導,然而由於定位原子知識組件的非平凡難題,這些應用僅限於簡單任務。本文提出了一種新方法——引導目標原子(STA),通過分離和操縱解構的知識組件來增強安全性。全面的實驗證明了我們方法的有效性。進一步分析顯示,引導技術展現出卓越的魯棒性和靈活性,特別是在對抗性場景中。我們還將引導策略應用於大型推理模型,證實了其在精確推理控制中的有效性。
我们推出了FinTagging,这是首个全面、表格感知的XBRL基准测试,旨在评估大型语言模型(LLMs)在基于XBRL的财务报告中的结构化信息提取与语义对齐能力。与以往将XBRL标记简化为扁平多类分类并仅关注叙述性文本的基准不同,FinTagging将XBRL标记问题分解为两个子任务:FinNI用于财务实体提取,FinCL用于分类驱动的概念对齐。它要求模型在非结构化文本和结构化表格中联合提取事实,并将其与完整的10,000+美国通用会计准则(US-GAAP)分类体系对齐,从而实现真实且细粒度的评估。我们在零样本设置下评估了多种LLMs,系统分析了它们在两个子任务及整体标记准确率上的表现。我们的结果表明,尽管LLMs在信息提取方面展现出强大的泛化能力,但在细粒度概念对齐上存在困难,尤其是在区分紧密相关的分类条目时。这些发现凸显了现有LLMs在完全自动化XBRL标记方面的局限性,并强调了改进语义推理和模式感知建模以满足准确财务披露需求的必要性。代码可在我们的GitHub仓库获取,数据则存放于Hugging Face仓库。
視覺語言模型(VLMs)在理解和推理視覺內容方面展現了顯著的能力,但在需要跨視角理解和空間推理的任務中仍存在重大挑戰。我們發現了一個關鍵限制:當前VLMs主要擅長於自我中心(從相機視角出發)的空間推理,但在需要採用其他實體的空間參考框架時,無法有效泛化至他者中心視角。我們引入了ViewSpatial-Bench,這是首個專為多視角空間定位識別評估設計的綜合基準,涵蓋五種不同的任務類型,並由一個自動化的3D註釋管道支持,該管道生成精確的方向標籤。在ViewSpatial-Bench上對多樣化VLMs的全面評估揭示了一個顯著的性能差距:模型在相機視角任務上表現尚可,但在從人類視角進行推理時準確性下降。通過在我們的多視角空間數據集上微調VLMs,我們在跨任務中實現了46.24%的整體性能提升,凸顯了我們方法的有效性。我們的工作為具身AI系統中的空間智能建立了一個關鍵基準,並提供了經驗證據,表明建模3D空間關係能增強VLMs相應的空間理解能力。
可縮放向量圖形(SVG)提供了一種強大的格式,以可解釋的代碼形式呈現視覺設計。近年來,視覺-語言模型(VLMs)的進展使得高質量的SVG生成成為可能,這通過將問題框架化為代碼生成任務並利用大規模預訓練來實現。VLMs特別適合此任務,因為它們既能捕捉全局語義,又能細緻地理解視覺模式,同時在視覺、自然語言和代碼領域之間轉移知識。然而,現有的VLM方法在生成忠實且高效的SVG時常常遇到困難,因為它們在訓練過程中從未觀察到渲染後的圖像。儘管針對自回歸SVG代碼生成的可微分渲染技術尚未出現,但渲染輸出仍可與原始輸入進行比較,從而提供適合強化學習(RL)的評估反饋。我們提出了基於渲染反饋的強化學習(RLRF),這是一種RL方法,通過利用渲染SVG輸出的反饋來增強自回歸VLMs中的SVG生成。給定輸入圖像,模型生成SVG展開,這些展開被渲染並與原始圖像進行比較以計算獎勵。這種視覺保真度反饋引導模型生成更準確、高效且語義連貫的SVG。RLRF顯著優於監督微調,解決了常見的失敗模式,並實現了具有強結構理解和泛化能力的精確、高質量SVG生成。
近期研究表明,通过将强化学习(RL)应用于数学和编程等领域的问答(QA)任务,可以提升大型语言模型(LLMs)的推理能力。在较长的上下文环境中,LLMs可能学会执行搜索,这一点从DeepSeek R1中观察到的自我修正行为中可见一斑。然而,这种搜索行为往往不够精确且缺乏信心,导致冗长冗余的回应,凸显了直觉与验证方面的不足。受心理学中双过程理论的启发,我们对QA任务进行了简单修改,引入了四个阶段:快速思维,要求LLM在严格的token预算内作答;验证,模型评估其初始回答;慢速思维,模型以更审慎的态度优化初始回答;以及总结,模型将前一阶段的优化提炼为精确步骤。我们提出的任务使Qwen2.5-1.5B的平均准确率从24.9%提升至27.9%,DeepSeek-R1-Qwen-1.5B的准确率从45.9%提升至49.8%。值得注意的是,对于Qwen2.5-1.5B,仅快速思维模式在使用少于1000个token的情况下就达到了26.8%的准确率,显示出显著的推理效率提升。这些发现表明,直觉与深思熟虑的推理是两种截然不同且互补的系统,通过针对性训练可从中获益。
我們介紹了VisTA,這是一個新的強化學習框架,它賦能視覺代理基於實證表現動態探索、選擇並組合來自多樣化工具庫中的工具。現有的工具增強推理方法要么依賴於無訓練的提示,要么需要大規模的微調;這兩種方法都缺乏主動的工具探索,並且通常假設工具多樣性有限,而微調方法還需要大量的人工監督。相比之下,VisTA利用端到端的強化學習來迭代地精煉複雜的、針對特定查詢的工具選擇策略,並以任務結果作為反饋信號。通過群組相對策略優化(GRPO),我們的框架使代理能夠自主發現有效的工具選擇路徑,而無需顯式的推理監督。在ChartQA、Geometry3K和BlindTest基準測試上的實驗表明,VisTA在無訓練基線之上實現了顯著的性能提升,尤其是在分佈外樣例上。這些結果凸顯了VisTA在增強泛化能力、自適應利用多樣化工具方面的能力,並為構建靈活的、經驗驅動的視覺推理系統鋪平了道路。
多模態大型語言模型(MLLMs)仍易受可遷移對抗樣本的影響。現有方法通常通過對齊全局特徵(如CLIP的[CLS]標記)來實現目標攻擊,但往往忽略了嵌入在補丁標記中的豐富局部信息。這導致對齊效果欠佳且遷移能力有限,尤其對於閉源模型。為解決這一局限,我們提出了一種基於特徵最優對齊的目標可遷移對抗攻擊方法,稱為FOA-Attack,以提升對抗遷移能力。具體而言,在全局層面,我們引入基於餘弦相似度的全局特徵損失,以對齊對抗樣本與目標樣本的粗粒度特徵。在局部層面,考慮到Transformer內豐富的局部表示,我們利用聚類技術提取緊湊的局部模式,以緩解冗餘局部特徵。隨後,我們將對抗樣本與目標樣本間的局部特徵對齊表述為最優傳輸(OT)問題,並提出局部聚類最優傳輸損失,以精細化細粒度特徵對齊。此外,我們提出了一種動態集成模型權重策略,在對抗樣本生成過程中自適應平衡多個模型的影響,從而進一步提升遷移能力。跨多種模型的廣泛實驗證明了所提方法的優越性,尤其在遷移至閉源MLLMs時,其表現超越了現有最先進的方法。代碼已發佈於https://github.com/jiaxiaojunQAQ/FOA-Attack。
我們推出SeePhys,這是一個大規模多模態基準測試,專為基於物理學問題的大型語言模型(LLM)推理而設計,問題範圍涵蓋中學至博士資格考試。該基準涵蓋物理學科的七個基礎領域,並整合了21類高度異質的圖表。與先前研究中視覺元素主要作為輔助用途不同,我們的基準測試中視覺核心問題佔據了顯著比例(75%),這些問題要求必須提取視覺資訊才能獲得正確解答。通過廣泛評估,我們發現即使是最先進的視覺推理模型(如Gemini-2.5-pro和o4-mini)在我們的基準測試上也只能達到低於60%的準確率。這些結果揭示了當前大型語言模型在視覺理解能力上的根本挑戰,特別是在:(i)建立圖表解讀與物理推理之間的嚴密耦合,以及(ii)克服其對文本線索作為認知捷徑的持續依賴方面。
自動評估多模態生成面臨著重大挑戰,因為自動化指標往往難以與人類評估可靠地保持一致,尤其是在涉及多種模態的複雜任務中。為解決這一問題,我們提出了MMMG,這是一個全面且與人類評估對齊的基準,涵蓋了四種模態組合(圖像、音頻、交錯文本與圖像、交錯文本與音頻),重點關注對生成模型構成顯著挑戰的任務,同時通過模型與程序的結合實現可靠的自動評估。MMMG包含49項任務(其中29項為新開發),每項任務均配備了精心設計的評估流程,以及937條指令,用以系統性地評估多模態生成模型的推理能力、可控性及其他關鍵能力。廣泛的驗證表明,MMMG與人類評估高度一致,平均一致率達94.3%。對24個多模態生成模型的基準測試結果顯示,儘管最先進的模型GPT Image在圖像生成上達到了78.3%的準確率,但在多模態推理和交錯生成方面仍顯不足。此外,結果表明音頻生成仍有顯著的改進空間,這為未來研究指明了一個重要方向。
通过强化学习(RL)训练的大型语言模型(LLMs)展现了强大的推理能力和涌现的反思行为,如回溯和错误纠正。然而,传统的马尔可夫强化学习将探索限制在训练阶段,以学习一个最优的确定性策略,并且仅通过当前状态依赖历史上下文。因此,尚不清楚在马尔可夫强化学习训练期间是否会涌现出反思推理,或者为何这些行为在测试时有益。为解决这一问题,我们在贝叶斯自适应强化学习框架中重新构建了反思探索,该框架明确优化了在马尔可夫决策过程后验分布下的预期回报。这种贝叶斯公式通过信念更新,内在激励了奖励最大化的利用和信息收集的探索。我们提出的算法BARL指导LLM根据观察到的结果拼接和切换策略,为模型何时以及如何进行反思探索提供了原则性指导。在合成任务和数学推理任务上的实证结果表明,BARL在测试时优于标准的马尔可夫强化学习方法,以更高的探索效率实现了更优的标记效率。我们的代码可在https://github.com/shenao-zhang/BARL获取。
隨著測試時縮放成為大型語言模型(LLMs)發展中的關鍵研究前沿,當代先進的後訓練方法日益聚焦於延長長鏈思維(CoT)回應的生成長度,以提升推理能力,達到類似DeepSeek R1的表現。然而,近期研究揭示,在最先進的推理模型中存在持續的過度思考現象,表現為長CoT回應中過多的冗餘或重複思維模式。為解決此問題,本文提出了一個簡單而有效的兩階段強化學習框架,名為ConciseR,旨在實現LLMs中的簡潔推理。具體而言,第一階段使用更多訓練步驟,旨在通過帶有剪裁上限和動態採樣組件的群組相對策略優化(GRPO++)激勵模型的推理能力;第二階段使用較少訓練步驟,通過長度感知的群組相對策略優化(L-GRPO)明確地強制簡潔並提升效率。值得注意的是,ConciseR僅在所有樣本的推演都正確後才優化回應長度,遵循「先走後跑」的原則。大量實驗結果表明,我們的ConciseR模型在生成更簡潔的CoT推理回應方面,超越了近期在AIME 2024、MATH-500、AMC 2023、Minerva和奧林匹亞基準測試中採用零RL範式的最先進推理模型。
理解透視是人類視覺感知的基礎,然而多模態大語言模型(MLLMs)在多大程度上內化了透視幾何仍不明確。我們提出了MMPerspective,這是首個專門設計來系統評估MLLMs透視理解的基準,通過三個互補維度(透視感知、推理與魯棒性)下的10項精心設計任務來實現。該基準包含2,711個真實世界與合成圖像實例,以及5,083個問答對,旨在探測關鍵能力,如消失點感知與計數、透視類型推理、三維空間中的線條關係理解、對保持透視變換的不變性等。通過對43個頂尖MLLMs的全面評估,我們發現了顯著的局限性:雖然模型在表層感知任務上表現出能力,但在組合推理及面對擾動時保持空間一致性方面卻存在困難。我們的分析進一步揭示了模型架構、規模與透視能力之間的有趣關聯,既指出了魯棒性瓶頸,也凸顯了思維鏈提示的益處。MMPerspective為診斷與推進視覺語言系統中的空間理解建立了一個寶貴的測試平臺。資源可訪問:https://yunlong10.github.io/MMPerspective/
近期大型語言模型(LLMs)的進展使得代理能夠自主執行複雜且開放式的任務。然而,許多現有框架過度依賴於手動預定義的工具和工作流程,這限制了它們的適應性、可擴展性以及跨領域的泛化能力。在本研究中,我們介紹了Alita——一款秉持“簡約即終極複雜”原則設計的通用代理,通過最小化預定義與最大化自我進化來實現可擴展的代理推理。在最小化預定義方面,Alita僅配備了一個直接解決問題的組件,相比以往依賴於精心手工打造的工具和工作流程的方法,其設計更為簡潔明瞭。這種簡潔的設計增強了其應對挑戰性問題的泛化潛力,而不受工具限制。在最大化自我進化方面,我們通過提供一套通用組件,使Alita能夠自主構建、精煉並重用外部能力,通過從開源資源生成與任務相關的模型上下文協議(MCPs),從而促進可擴展的代理推理。值得注意的是,Alita在GAIA基準驗證數據集上達到了75.15%的pass@1和87.27%的pass@3準確率,在通用代理中名列前茅;在Mathvista和PathVQA上分別取得了74.00%和52.00%的pass@1成績,超越了許多複雜度更高的代理系統。更多詳情將更新於https://github.com/CharlesQ9/Alita。
视觉语言模型(VLMs)在编码和数学基准测试中取得了显著成果,这些任务对人类而言颇具挑战性,然而,它们在执行人类自然擅长的任务——如感知、空间导航和记忆管理——方面的能力仍待深入研究。真实的电子游戏设计旨在利用人类固有的归纳偏倚,使其易于学习和掌握,因此成为评估VLMs此类能力的理想测试平台。为此,我们推出了VideoGameBench,一个包含10款1990年代流行电子游戏的基准测试,VLMs需实时直接与这些游戏互动。VideoGameBench要求模型仅凭原始视觉输入及对目标和控件的高层次描述完成整个游戏,这与依赖游戏特定框架和辅助信息的现有设置形成显著差异。我们保留了三款游戏作为秘密测试,以鼓励模型发展出适应未知环境的解决方案。实验表明,前沿视觉语言模型在每款游戏的初期阶段便难以推进。我们发现,在实时设置下,推理延迟是前沿模型的主要限制因素;因此,我们引入了VideoGameBench Lite,在此设置中,游戏会在等待语言模型下一步动作时暂停。表现最佳的模型Gemini 2.5 Pro仅完成了VideoGameBench的0.48%和VideoGameBench Lite的1.6%。我们期望通过将上述人类技能形式化纳入此基准测试,能够推动这些研究方向的进展。
隨著推理與資訊檢索後處理技術的快速進步,大型語言模型(LLMs)能夠整合大量檢索到的知識來解決複雜任務。然而,LLMs有限的上下文窗口阻礙了外部知識輸入規模的擴展,限制了進一步的性能提升,尤其是對於需要大量外部知識的任務。現有的上下文窗口擴展方法不可避免地會導致資訊損失。基於LLM的多智能體方法作為一種新範式應運而生,以分佈式方式處理海量輸入,我們在現有的知識同步與推理過程中識別出兩個核心瓶頸。在本研究中,我們開發了一個多智能體框架——ExtAgents,以克服這些瓶頸,並在不進行長上下文訓練的情況下,實現推理時知識整合的更好可擴展性。通過我們增強的多跳問答測試集$boldsymbol{inftyBench+}$以及其他包括長篇調查生成的公開測試集進行基準測試,ExtAgents在相同外部知識輸入量的情況下,無論其是否超出上下文窗口,均顯著提升了性能,超越了現有的非訓練方法。此外,由於高度並行性,該方法保持了高效率。進一步研究在增加外部知識輸入時LLM智能體的協調,將有益於現實世界的應用。
帧间插值旨在根據給定的起始幀和結束幀合成中間視頻序列。當前最先進的方法主要通過直接微調或省略訓練來擴展大規模預訓練的圖像到視頻擴散模型(I2V-DMs),以融入結束幀約束。我們發現這些設計中存在一個關鍵限制:它們對結束幀約束的注入通常使用與最初施加起始幀(單一圖像)約束相同的機制。然而,由於原始的I2V-DMs已經充分訓練以適應起始幀條件,通過相同機制引入結束幀約束且僅進行少量(甚至零)專門訓練,可能無法使結束幀對中間內容產生像起始幀那樣強烈的影響。這種兩幀對中間內容控制強度的不對稱性,很可能導致生成幀中出現不一致的運動或外觀崩潰。為了有效實現起始幀和結束幀的對稱約束,我們提出了一個名為Sci-Fi的新框架,該框架對訓練規模較小的約束應用更強的注入。具體而言,它像以前一樣處理起始幀約束,同時通過改進的機制引入結束幀約束。新機制基於一個精心設計的輕量級模塊,名為EF-Net,該模塊僅編碼結束幀並將其擴展為時間自適應的逐幀特徵,注入到I2V-DM中。這使得結束幀約束與起始幀約束一樣強,使我們的Sci-Fi能夠在各種場景中產生更和諧的過渡。大量實驗證明了我們的Sci-Fi相較於其他基線方法的優越性。
基于扩散变换器(DiT)的视频扩散模型能够大规模生成高质量视频,但在处理长视频时会产生过高的处理延迟和内存成本。为解决这一问题,我们提出了一种新颖的分布式推理策略,称为DualParal。其核心思想是,不再在单个GPU上生成整个视频,而是将时间帧和模型层并行化到多个GPU上。然而,这种划分的简单实现面临一个关键限制:由于扩散模型要求跨帧的噪声水平同步,这种实现会导致原始并行性的串行化。我们采用了一种分块去噪方案来处理这一问题。具体而言,我们通过管道处理一系列帧块,噪声水平逐渐降低。每个GPU处理特定的帧块和层子集,同时将先前的结果传递给下一个GPU,从而实现异步计算和通信。为了进一步优化性能,我们引入了两项关键增强措施。首先,在每个GPU上实现了一个特征缓存,用于存储和重用前一块的特征作为上下文,从而最小化GPU间通信和冗余计算。其次,我们采用了一种协调的噪声初始化策略,通过跨GPU共享初始噪声模式,确保全局一致的时间动态,而无需额外的资源成本。这些措施共同实现了快速、无伪影且无限长的视频生成。应用于最新的扩散变换器视频生成器,我们的方法在8块RTX 4090 GPU上高效生成了1,025帧视频,延迟降低了6.54倍,内存成本降低了1.48倍。
訓練後壓縮技術降低了大型語言模型(LLMs)的計算和記憶體成本,實現了資源高效部署。然而,現有的壓縮基準僅專注於語言建模(例如,困惑度)和自然語言理解任務(例如,GLUE準確率),忽略了代理能力——工作流程、工具使用/函數調用、長上下文理解以及實際應用。我們引入了代理壓縮基準(ACBench),這是首個全面評估壓縮如何影響LLMs代理能力的基準。ACBench涵蓋(1)跨四種能力的12項任務(例如,WorfBench用於工作流程生成,Needle-in-Haystack用於長上下文檢索),(2)量化(GPTQ, AWQ)和剪枝(Wanda, SparseGPT)技術,以及(3)15種模型,包括小型(Gemma-2B)、標準(Qwen2.5 7B-32B)和蒸餾推理LLMs(DeepSeek-R1-Distill)。我們的實驗揭示了壓縮的權衡:4位元量化保留了工作流程生成和工具使用(下降1%-3%),但實際應用準確率下降了10%-15%。我們引入了ERank、Top-k排名相關性和能量來系統化分析。ACBench為在代理場景中優化LLM壓縮提供了可操作的見解。程式碼可在https://github.com/pprp/ACBench找到。
多模態大型語言模型(MLLMs)的最新進展在整合文本和圖像等多樣化模態方面展現了令人鼓舞的成果。然而,MLLMs深受模態偏見的影響,往往過度依賴語言而未能充分利用視覺輸入等其他模態。本立場文件論證了MLLMs如何被模態偏見深刻影響。首先,我們診斷了當前模態偏見的現狀,強調其在各類任務中的表現。其次,我們提出了一個與MLLMs中模態偏見相關的系統性研究路線圖。第三,我們識別了MLLMs中模態偏見的關鍵因素,並為未來研究提供了可操作性的建議以減輕其影響。為證實這些發現,我們進行了實驗,展示了每個因素的影響:1. 數據特性:語言數據緊湊且抽象,而視覺數據冗餘且複雜,這在學習動態中造成了固有的不平衡。2. 不平衡的骨幹能力:預訓練語言模型在MLLMs中的主導地位導致了對語言的過度依賴和對視覺信息的忽視。3. 訓練目標:當前的訓練目標往往未能促進平衡的跨模態對齊,導致了偏向語言的捷徑學習。這些發現強調了需要平衡的訓練策略和模型架構,以更好地在MLLMs中整合多種模態。我們呼籲跨學科的努力來應對這些挑戰,並推動MLLM研究的創新。我們的工作為MLLMs中的模態偏見提供了新的視角,並為開發更為健壯和可泛化的多模態系統提供了洞見,從而推動了向人工通用智能的進步。
生物醫學研究人員日益依賴大規模結構化數據庫來完成複雜的分析任務。然而,現有的文本到SQL系統在將定性的科學問題映射為可執行的SQL語句時常常遇到困難,尤其是在需要隱含領域推理的情況下。我們推出了BiomedSQL,這是首個專門設計用於評估在真實世界生物醫學知識庫上進行文本到SQL生成時科學推理能力的基準。BiomedSQL包含68,000個基於統一BigQuery知識庫的問題/SQL查詢/答案三元組,該知識庫整合了基因-疾病關聯、來自組學數據的因果推斷以及藥物批准記錄。每個問題都要求模型推斷領域特定的標準,如全基因組顯著性閾值、效應方向性或試驗階段過濾,而非僅僅依賴於語法翻譯。我們評估了一系列開源和閉源的大型語言模型(LLM)在不同提示策略和交互範式下的表現。結果顯示存在顯著的性能差距:GPT-o3-mini的執行準確率為59.0%,而我們定制的多步代理BMSQL達到了62.6%,兩者均遠低於專家基線的90.0%。BiomedSQL為推進能夠通過對結構化生物醫學知識庫進行穩健推理來支持科學發現的文本到SQL系統提供了新的基礎。我們的數據集公開於https://huggingface.co/datasets/NIH-CARD/BiomedSQL,代碼開源於https://github.com/NIH-CARD/biomedsql。
大型語言模型(LLMs)雖功能強大,卻因靜態知識而易產生幻覺。檢索增強生成(RAG)通過注入外部信息來改善這一問題,但現有方法往往成本高昂、泛化能力差,或忽視了模型的內部知識。本文介紹了R1-Searcher++,這是一個新穎的框架,旨在訓練LLMs自適應地利用內部和外部知識源。R1-Searcher++採用兩階段訓練策略:首先是SFT冷啟動階段,用於初步的格式學習;隨後是RL動態知識獲取階段。RL階段利用結果監督鼓勵探索,引入獎勵機制促進內部知識的利用,並整合記憶機制持續吸收檢索到的信息,從而豐富模型的內部知識。通過結合內部知識與外部搜索引擎,模型不斷提升其能力,實現高效的檢索增強推理。實驗表明,R1-Searcher++在性能上超越了以往的RAG和推理方法,並實現了高效的檢索。代碼已開源於https://github.com/RUCAIBox/R1-Searcher-plus。
大型語言模型已展現出令人矚目的推理能力,但其內在知識儲備的限制不容忽視。檢索增強推理通過允許大型語言模型查詢外部資源來緩解這一限制,然而現有方法往往檢索到不相關或噪音信息,阻礙了準確推理。本文提出AutoRefine,一種採用新型“思考中搜索與精煉”範式的強化學習後訓練框架。AutoRefine在連續搜索調用之間引入了明確的知識精煉步驟,使模型在生成答案前能迭代過濾、提煉並組織證據。此外,我們利用群體相對策略優化,將定制的檢索特定獎勵與答案正確性獎勵相結合。在單跳和多跳問答基準上的實驗表明,AutoRefine顯著優於現有方法,特別是在複雜的多跳推理場景中。細緻分析顯示,AutoRefine頻繁發起更高質量的搜索,並有效整合證據。
大型多模态模型(LMMs)在二维图像和视频领域的快速发展,推动了这些模型向理解三维场景的延伸,旨在实现类人的视觉空间智能。然而,达到与人类能力相媲美的深度空间理解,在模型编码和数据获取方面仍面临重大挑战。现有方法常依赖外部深度传感器进行几何捕捉,或利用现成算法预先构建三维地图,这限制了其可扩展性,特别是在普遍的单目视频输入及对时间敏感的应用场景中。本研究提出了VLM-3R,一个融合三维重建指令调优的视觉语言模型(VLMs)统一框架。VLM-3R通过几何编码器处理单目视频帧,生成代表空间理解的隐式三维标记。借助我们的空间-视觉-视图融合技术及超过20万条精心策划的三维重建指令调优问答对,VLM-3R有效对齐了现实世界的空间语境与语言指令,实现了单目三维空间辅助与具身推理。为促进时间推理的评估,我们引入了视觉-空间-时间智能基准,包含超过13.86万条问答对,覆盖五个专注于空间关系演变的独特任务。大量实验表明,我们的模型VLM-3R不仅促进了稳健的视觉空间推理,还能理解三维语境的时间变化,在准确性和可扩展性上均表现出色。
多模態信息檢索(MIR)由於數據源的異質性和跨模態對齊的複雜性,面臨著固有的挑戰。儘管先前的研究已經識別出特徵空間中的模態差距,但解決這些挑戰的系統性方法仍未被探索。在本研究中,我們引入了UNITE,這是一個通用框架,通過兩個關鍵但尚未充分探索的方面來應對這些挑戰:數據策展和模態感知的訓練配置。我們的工作首次全面分析了模態特定數據屬性如何影響多樣化場景中的下游任務性能。此外,我們提出了模態感知掩碼對比學習(MAMCL)來緩解不同模態實例之間的競爭關係。我們的框架在多個多模態檢索基準上取得了最先進的成果,顯著超越了現有方法。通過大量實驗,我們證明了策略性的模態策展和定制的訓練協議對於穩健的跨模態表示學習至關重要。這項工作不僅提升了MIR的性能,還為未來多模態系統的研究提供了基礎藍圖。我們的項目可在https://friedrichor.github.io/projects/UNITE獲取。
目標語音提取(Target Speech Extraction, TSE)旨在通過利用特定於說話者的線索(通常以輔助音頻形式提供,即提示音頻),從多位說話者的混合音頻中分離出目標說話者的聲音。儘管近期TSE的進展主要依賴於提供高感知質量的判別模型,這些模型往往會引入不必要的偽影、降低自然度,並且對訓練與測試環境之間的差異敏感。另一方面,生成模型在TSE中的感知質量和清晰度方面則相對落後。為應對這些挑戰,我們提出了SoloSpeech,一種新穎的級聯生成管道,整合了壓縮、提取、重建和校正過程。SoloSpeech採用了一種無需說話者嵌入的目標提取器,該提取器利用提示音頻潛在空間中的條件信息,並將其與混合音頻的潛在空間對齊,以防止不匹配。在廣泛使用的Libri2Mix數據集上進行評估,SoloSpeech在目標語音提取和語音分離任務中實現了新的最優清晰度和質量,同時在域外數據和實際場景中展現出卓越的泛化能力。
近期,多模態大型語言模型(MLLMs)的顯著進展大幅提升了其能力;然而,其空間感知能力仍是一個顯著的限制。為應對這一挑戰,多模態數據合成提供了一種有前景的解決方案。然而,確保合成數據符合空間常識並非易事。在本研究中,我們提出了SKG2Data,這是一種基於空間知識圖引導的新型多模態合成方法,其核心理念是知識到數據的生成。SKG2Data自動構建空間知識圖(SKG),以模擬人類對空間方向和距離的感知,並利用此圖來指導多模態數據的合成。大量實驗表明,基於多種類型空間知識(包括方向和距離)合成的數據,不僅提升了MLLMs的空間感知與推理能力,還展現出強大的泛化能力。我們期望,基於知識的數據合成理念能夠推動空間智能的發展。
雖然虛擬試穿(VTON)系統旨在將服裝渲染到目標人物圖像上,本文則探討了一項新穎的任務——虛擬脫衣(VTOFF),該任務解決的是相反的問題:從穿著服裝的個人的真實照片中生成標準化的服裝產品圖像。與VTON需要處理多樣的姿勢和風格變化不同,VTOFF受益於一致且定義明確的輸出格式——通常是服裝的平鋪展示形式——這使其成為數據生成和數據集增強的有力工具。然而,現有的VTOFF方法面臨兩大限制:(i) 難以從遮擋和複雜姿勢中分離出服裝特徵,常導致視覺偽影;(ii) 僅適用於單一類別服裝(例如僅限於上半身衣物),限制了其泛化能力。為應對這些挑戰,我們提出了文本增強的多類別虛擬脫衣(TEMU-VTOFF),這是一種新穎的架構,採用雙DiT基幹網絡,並配備了改進的多模態注意力機制,以實現穩健的服裝特徵提取。我們的架構設計為能夠接收來自圖像、文本和掩碼等多種模態的服裝信息,以適應多類別場景。最後,我們提出了一個額外的對齊模塊,以進一步精煉生成的視覺細節。在VITON-HD和Dress Code數據集上的實驗表明,TEMU-VTOFF在VTOFF任務上設定了新的技術標準,顯著提升了視覺質量和對目標服裝的忠實度。
隨著大型語言模型的能力與自主性不斷提升,透過紅隊測試識別其脆弱性對於安全部署變得至關重要。然而,一旦紅隊測試轉變為弱對強的問題,即目標模型的能力超越紅隊成員時,傳統的提示工程方法可能失效。為研究這一轉變,我們從攻擊者與目標之間的能力差距視角來構建紅隊測試框架。我們評估了超過500組攻擊者-目標配對,使用基於LLM的越獄攻擊來模擬人類紅隊成員,涵蓋多種模型家族、規模及能力水平。三項顯著趨勢浮現:(i) 能力更強的模型作為攻擊者更為有效,(ii) 當目標能力超越攻擊者時,攻擊成功率急劇下降,(iii) 攻擊成功率與MMLU-Pro基準測試中社會科學部分的高表現相關。基於這些趨勢,我們推導出一條越獄擴展定律,能夠根據攻擊者與目標的能力差距預測固定目標下的攻擊成功率。這些發現表明,固定能力的攻擊者(如人類)可能對未來模型失效,日益強大的開源模型加劇了現有系統的風險,模型提供商必須準確衡量並控制模型的說服與操控能力,以限制其作為攻擊者的效力。
數字取證與事件響應(DFIR)涉及分析數字證據以支持法律調查。大型語言模型(LLMs)為DFIR任務(如日誌分析和內存取證)提供了新的機遇,但其在關鍵情境下易出錯和產生幻覺的特性引發了擔憂。儘管興趣日益增長,目前尚無全面基準來評估LLMs在理論與實踐DFIR領域的表現。為填補這一空白,我們提出了DFIR-Metric,一個包含三個組件的基準:(1) 知識評估:一套由專家審核的700道多選題,來源於行業標準認證和官方文檔;(2) 現實取證挑戰:150項CTF風格任務,測試多步推理與證據關聯能力;(3) 實踐分析:來自NIST計算機取證工具測試計劃(CFTT)的500個磁盤與內存取證案例。我們使用DFIR-Metric評估了14個LLMs,分析了它們的準確性和跨試驗的一致性。我們還引入了一項新指標——任務理解分數(TUS),旨在更有效地評估模型在接近零準確率情境下的表現。此基準為推進人工智能在數字取證中的應用提供了嚴謹、可重複的基礎。所有腳本、工件及結果均可於項目網站https://github.com/DFIR-Metric獲取。
随着生成模型的飞速发展,通用生成作为一种统一多模态任务于单一系统的有前景方法,日益受到关注。尽管取得了这些进展,现有的开源框架往往仍显脆弱,在支持复杂现实世界应用方面面临挑战,主要归因于缺乏结构化的工作流规划及执行层面的反馈机制。为应对这些局限,我们推出了ComfyMind,一个基于ComfyUI平台构建的协作式AI系统,旨在实现稳健且可扩展的通用生成。ComfyMind引入了两大核心创新:语义工作流接口(SWI),将底层节点图抽象为自然语言描述的可调用功能模块,促进高层级组合并减少结构错误;以及带有局部反馈执行的搜索树规划机制,将生成过程建模为层次化决策流程,允许在每一阶段进行自适应修正。这些组件共同提升了复杂生成工作流的稳定性与灵活性。我们在三个公开基准测试上评估了ComfyMind:ComfyBench、GenEval和Reason-Edit,涵盖生成、编辑和推理任务。结果显示,ComfyMind在各项任务中均优于现有开源基线,并达到了与GPT-Image-1相媲美的性能。ComfyMind为开源通用生成AI系统的发展开辟了一条充满希望的道路。项目页面:https://github.com/LitaoGuo/ComfyMind
基於視覺-語言模型(VLM)的網絡代理在模擬人類與網站互動以自動化複雜任務方面邁出了重要一步。然而,在不受控的網絡環境中部署這些代理引入了顯著的安全漏洞。現有研究關於對抗性環境注入攻擊往往依賴於不切實際的假設,如直接操縱HTML、知曉用戶意圖或訪問代理模型參數,這限制了其實際應用性。本文提出AdInject,一種新穎且現實的黑盒攻擊方法,利用互聯網廣告投放向網絡代理的環境中注入惡意內容。AdInject在比先前工作更為現實的威脅模型下運作,假設代理為黑盒、惡意內容靜態約束且無特定用戶意圖知識。AdInject包含設計旨在誤導代理點擊的惡意廣告內容的策略,以及一種基於VLM的廣告內容優化技術,該技術從目標網站的上下文中推斷潛在用戶意圖,並將這些意圖整合到廣告內容中,使其對代理的任務顯得更加相關或關鍵,從而提升攻擊效果。實驗評估證明了AdInject的有效性,在大多數場景下攻擊成功率超過60%,在某些情況下接近100%。這強有力地表明,普遍存在的廣告投放構成了針對網絡代理環境注入攻擊的一種強大且現實的途徑。本工作揭示了由於現實世界環境操縱渠道而產生的網絡代理安全中的關鍵漏洞,強調了開發針對此類威脅的強健防禦機制的迫切需求。我們的代碼可在https://github.com/NicerWang/AdInject獲取。
現今最先進的文本到動作生成模型依賴於由HumanML3D普及的運動學感知、局部相對運動表示法,該方法通過相對於骨盆及前一幀的編碼來表示動作,並內置了冗餘性。雖然這一設計簡化了早期生成模型的訓練過程,但卻為擴散模型引入了關鍵限制,並阻礙了其在下游任務中的應用。在本研究中,我們重新審視了動作表示方式,並提出了一種極簡化且長期被棄用的替代方案:全局空間中的絕對關節座標。通過對設計選擇的系統性分析,我們展示了這一表述方式即使在僅使用簡單的Transformer架構且無需輔助運動學感知損失的情況下,也能實現顯著更高的動作保真度、改善的文本對齊能力以及強大的可擴展性。此外,我們的表述方式自然支持下游任務,如基於文本的動作控制及時間/空間編輯,而無需額外的任務特定重新工程設計或從控制信號生成昂貴的分類器指導。最後,我們展示了直接從文本生成SMPL-H網格頂點動作的潛在泛化能力,為未來的研究及動作相關應用奠定了堅實基礎。
视觉语言模型(VLMs)在多种任务中表现出色,但面临高推理成本,包括时间和内存消耗。令牌稀疏性缓解了令牌使用中的低效问题,而神经元稀疏性则减少了高维计算,两者均为提升效率提供了有前景的解决方案。近期,这两种稀疏性范式大多并行发展,形成了它们独立运作的普遍假设。然而,一个基础却未充分探讨的问题依然存在:它们是否真的孤立运作,还是存在尚未揭示的更深层次相互作用?本文首次对此问题进行了全面研究。通过引入并分析核心神经元与核心令牌之间的匹配机制,我们发现推理中的关键神经元与令牌相互影响并强化彼此。基于这一洞察,我们提出了CoreMatching,一个共适应稀疏推理框架,该框架利用令牌与神经元稀疏性之间的协同效应来提升推理效率。通过理论分析与效率评估,我们证明了所提方法在十项图像理解任务及三种硬件设备上超越了现有最先进的基线。特别是在NVIDIA Titan Xp上,实现了5倍的浮点运算减少和10倍的整体加速。代码已发布于https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main。
DeepSeek-R1在文本领域通过稳定的强化学习(RL)展现了强大的推理能力。近期,在多模态领域,研究开始直接应用RL来生成类似R1的自由形式推理,以应对视觉问答(VQA)任务。然而,多模态任务与文本任务在本质上存在显著差异,前者高度依赖于对输入图像的理解来解决问题。因此,在VQA任务中,此类自由形式推理面临两个关键限制:(1)延长的推理链会分散对任务关键区域的视觉关注,降低答案准确性。(2)不可验证的中间步骤加剧了策略梯度的方差和计算成本的开销。为解决这些问题,本文提出了SATORI(基于空间锚定的任务优化与强化学习),它将VQA分解为三个可验证的阶段,包括全局图像描述、区域定位和答案预测,每个阶段均提供明确的奖励信号。此外,我们还引入了VQA-Verify,一个包含12k条标注有答案对应描述和边界框的数据集,以促进训练。实验表明,在七个VQA基准测试中均实现了性能的持续提升,与类似R1的基线相比,准确率最高提升了15.7%。我们对注意力图的分析证实了对关键区域关注度的增强,从而带来了准确率的提升。我们的代码可在https://github.com/justairr/SATORI-R1获取。
專家混合(Mixture-of-Experts, MoE)架構使得大型語言模型(LLMs)能夠擴展至龐大的參數規模,而無需相應增加計算成本。然而,大型MoE模型對記憶體的高需求阻礙了其在各種計算環境中的部署,從雲端伺服器到消費級設備皆然。本研究首先展示了MoE層中專家激活模式在特定任務上的顯著專一性。基於此,我們提出了PreMoe,這是一個新穎的框架,旨在記憶體受限的環境中高效部署大規模MoE模型。PreMoe包含兩個主要組件:概率專家剪枝(Probabilistic Expert Pruning, PEP)和任務自適應專家檢索(Task-Adaptive Expert Retrieval, TAER)。PEP採用了一種新指標——任務條件期望選擇分數(Task-Conditioned Expected Selection Score, TCESS),該分數源自路由器的邏輯值,用於量化特定任務下專家的重要性,從而識別出一組最小但關鍵的專家。TAER則利用這些任務特定的專家重要性檔案進行高效推理。它預先計算並存儲了針對多樣任務的緊湊專家模式。當接收到用戶查詢時,TAER迅速識別出最相關的存儲任務模式,並僅加載對該任務至關重要的少數專家子集來重建模型。這種方法在所有部署場景中大幅減少了記憶體佔用。DeepSeek-R1 671B在剪枝至8/128配置(專家減少50%)時,在MATH500上保持了97.2%的準確率,而在更激進的8/32剪枝(專家減少87.5%)下仍達到了72.0%的準確率。Pangu-Ultra-MoE 718B在8/128剪枝下,於MATH500和AIME24上分別取得了97.15%和81.3%的準確率,而更為激進的4/64剪枝(390GB記憶體)在MATH500上仍保持了96.95%的準確率。我們已將代碼公開於https://github.com/JarvisPei/PreMoe。
在本研究中,我們旨在通過強化學習(RL)激發多模態大型語言模型(MLLMs)的推理能力,並開發一種有效的方法來緩解RL過程中獎勵稀疏和優勢消失的問題。為此,我們提出了Share-GRPO,這是一種新穎的RL方法,通過在擴展的問題空間中探索和共享多樣化的推理軌跡來解決這些問題。具體而言,Share-GRPO首先通過數據轉換技術擴展給定問題的問題空間,然後鼓勵MLLM在擴展的問題空間中有效探索多樣化的推理軌跡,並在RL過程中跨擴展問題共享發現的推理軌跡。此外,Share-GRPO還在優勢計算過程中共享獎勵信息,這使得能夠在問題變體之間和內部層次化地估計解決方案的優勢,從而更準確地估計相對優勢並提高策略訓練的穩定性。在六個廣泛使用的推理基準上的廣泛評估展示了我們方法的優越性能。代碼將在https://github.com/HJYao00/R1-ShareVL上提供。
理解模型對其預測不確定性的來源,對於實現有效的人機協作至關重要。先前的研究提出了使用數值不確定性或模糊語句(如「我不確定,但……」)的方法,這些方法並未解釋由證據衝突引起的不確定性,使得用戶無法解決分歧或依賴輸出結果。我們引入了CLUE(基於衝突與一致性的語言模型不確定性解釋框架),這是首個通過以下方式生成模型不確定性自然語言解釋的框架:(i) 以無監督方式識別文本片段之間的關係,這些關係揭示了導致模型預測不確定性的主張-證據或證據間衝突與一致性;(ii) 通過提示和注意力引導生成解釋,將這些關鍵互動以語言形式表達出來。在三個語言模型和兩個事實核查數據集上的實驗表明,與未提供片段互動指導的不確定性解釋提示相比,CLUE生成的解釋更忠實於模型的不確定性,且與事實核查決策更為一致。人類評估者認為我們的解釋比基準方法更有幫助、信息更豐富、冗余更少,並且與輸入的邏輯一致性更高。CLUE無需微調或架構修改,使其能夠即插即用於任何白盒語言模型。通過明確將不確定性與證據衝突聯繫起來,它為事實核查提供了實用支持,並能輕鬆推廣到其他需要對複雜信息進行推理的任務中。
動態規劃(DP)算法在處理組合優化問題時,其遞歸算法涉及最大化、最小化及經典加法運算。相關的價值函數對應於最大加半環中的凸多面體。然而,現有的神經算法推理模型依賴於經過softmax歸一化的點積注意力機制,其中平滑的指數加權模糊了這些尖銳的多面體結構,並在分佈外(OOD)設置下評估時崩潰。我們引入了熱帶注意力,這是一種新穎的注意力函數,它原生於熱帶幾何的最大加半環中。我們證明,熱帶注意力能夠近似DP型組合算法的熱帶電路。隨後,我們提出使用熱帶變換器在算法推理任務中,無論是長度泛化還是價值泛化,都能提升實證OOD性能,超越softmax基線,同時在對抗攻擊下保持穩定。我們還將對抗攻擊泛化作為神經算法推理基準測試的第三個維度。我們的結果表明,熱帶注意力恢復了softmax所缺失的尖銳、尺度不變的推理能力。
大型語言模型(LLMs)日益被視為科學發現的強大工具,尤其是在分子科學領域。這些模型的一個基本要求是能夠準確理解分子結構,通常以SMILES表示法編碼。然而,現有的LLMs在解讀SMILES方面存在困難,甚至無法完成如計數分子環等基本任務。為解決這一限制,我們引入了CLEANMOL,這是一種新穎的框架,將SMILES解析轉化為一系列清晰且確定性的任務,這些任務專門設計來促進圖層面的分子理解。這些任務涵蓋從子圖匹配到全局圖匹配,提供了與分子結構特性相一致的結構化監督。我們構建了一個具有自適應難度評分的分子預訓練數據集,並在這些任務上對開源LLMs進行了預訓練。我們的結果表明,CLEANMOL不僅增強了結構理解,還在Mol-Instructions基準測試中取得了最佳成績或與基線模型相當的表現。
檢索增強生成技術通過將從外部語料庫檢索到的段落添加到大型語言模型(LLM)的提示中,從而提升其準確性。本文探討了位置偏差——即LLM根據信息在提示中的位置給予不同權重的傾向——如何不僅影響LLM利用相關段落的能力,還影響其對干擾段落的敏感性。通過在三個基準上的廣泛實驗,我們展示了最先進的檢索管道在嘗試檢索相關段落的同時,系統性地將高度干擾的段落帶到排名前列,超過60%的查詢在其前10個檢索段落中至少包含一個高度干擾的段落。因此,在受控環境中常被相關研究報告為非常顯著的LLM位置偏差,在實際場景中的影響實際上微乎其微,因為相關和干擾段落都會相應地受到懲罰。事實上,我們的研究發現,試圖根據LLM位置偏好重新排列段落的複雜策略,其表現並不比隨機打亂更好。
視覺變換器(Vision Transformers, ViTs)已成為視覺處理任務中的主流架構,展現出隨著訓練數據和模型規模增加而優異的擴展性。然而,近期研究發現ViTs中出現了與局部語義不符的偽影令牌,這些異常令牌在需要精細定位或結構一致性的任務中降低了ViT的性能。有效緩解此問題的方法是向ViTs添加寄存器令牌,這些令牌在訓練過程中隱式地“吸收”偽影項。鑒於現有各種大規模預訓練ViTs的可用性,本文旨在無需從頭訓練(考慮到其規模,這是不現實的)的情況下,為這些模型配備此類寄存器令牌。具體而言,我們提出了事後寄存器(Post Hoc Registers, PH-Reg),這是一種高效的自我蒸餾方法,能夠將寄存器整合到現有的ViT中,而無需額外的標記數據和全面重新訓練。PH-Reg從同一預訓練ViT初始化教師和學生網絡,教師網絡保持凍結且未經修改,而學生網絡則通過隨機初始化的寄存器令牌進行增強。通過對教師網絡的輸入應用測試時增強,我們生成無偽影的去噪密集嵌入,隨後僅用於優化學生網絡中一小部分解鎖的權重。我們證明,該方法能有效減少偽影令牌的數量,在零樣本和線性探測下提升學生ViT的分割和深度預測性能。
蛋白質語言模型(PLMs)已成為檢測蛋白質序列複雜模式的有力工具。然而,PLMs完全捕捉蛋白質序列信息的能力可能因專注於單一預訓練任務而受到限制。儘管增加數據模態或監督目標可以提高PLMs的性能,但預訓練通常仍集中在去噪損壞的序列上。為了突破PLMs的界限,我們的研究探索了一種多任務預訓練策略。我們開發了Ankh3,這是一個在兩個目標上聯合優化的模型:使用多種掩碼概率的掩碼語言建模和僅依賴蛋白質序列作為輸入的蛋白質序列補全。這種多任務預訓練表明,PLMs可以僅從蛋白質序列中學習到更豐富且更具泛化能力的表示。結果顯示,在下游任務(如二級結構預測、熒光、GB1適應性和接觸預測)中性能有所提升。多任務的整合使模型對蛋白質特性有了更全面的理解,從而實現了更穩健和準確的預測。
蛋白質間相互作用(PPIs)是眾多細胞過程的基礎,其特性描述對於理解疾病機制和指導藥物發現至關重要。雖然蛋白質語言模型(PLMs)在預測蛋白質結構和功能方面已展現出顯著成功,但將其應用於基於序列的PPI結合親和力預測仍相對未被充分探索。這一差距通常歸因於高質量、嚴格精煉數據集的稀缺以及對簡單蛋白質表示串聯策略的依賴。在本研究中,我們針對這些限制進行了探討。首先,我們引入了一個精心整理的PPB-Affinity數據集版本,共包含8,207個獨特的蛋白質相互作用條目,通過解決多鏈蛋白相互作用中的註釋不一致和重複條目問題。該數據集採用了嚴格的序列同一性閾值(≤30%),以確保訓練、驗證和測試集的穩健劃分,最大限度地減少數據洩漏。其次,我們提出並系統評估了四種適應PLMs進行PPI結合親和力預測的架構:嵌入串聯(EC)、序列串聯(SC)、層次池化(HP)和池化注意力加法(PAD)。這些架構通過兩種訓練方法進行評估:全面微調和一種輕量級方法,即在凍結的PLM特徵上使用ConvBERT頭部。我們在多個領先的PLMs(ProtT5、ESM2、Ankh、Ankh2和ESM3)上進行的全面實驗表明,HP和PAD架構始終優於傳統的串聯方法,在Spearman相關性方面實現了高達12%的提升。這些結果強調了複雜架構設計的必要性,以充分利用PLMs進行細緻的PPI結合親和力預測。
神經退行性失智症的鑑別診斷是一項具有挑戰性的臨床任務,主要由於症狀表現的重疊性以及結構性神經影像中觀察到的模式相似性。為提高診斷效率和準確性,基於深度學習的方法,如卷積神經網絡和視覺變壓器,已被提出用於腦部磁共振成像的自動分類。然而,儘管這些模型具有強大的預測性能,由於其決策過程的不透明性,它們在臨床應用中受到限制。在本研究中,我們提出了一個框架,整合了兩個核心組件以增強診斷的透明度。首先,我們引入了一個模組化流程,將3D T1加權腦部磁共振成像轉換為文本形式的放射學報告。其次,我們探討了現代大型語言模型(LLMs)在基於生成報告進行額顳葉失智症亞型、阿茲海默症與正常老化之間鑑別診斷的潛力。為彌補預測準確性與可解釋性之間的差距,我們採用強化學習來激勵LLMs進行診斷推理。無需監督推理軌跡或從更大模型進行蒸餾,我們的方法促成了基於神經影像發現的結構化診斷理據的出現。與事後解釋方法不同,這些方法回顧性地為模型決策提供合理性,我們的框架在推理過程中生成診斷理據——產生因果基礎的解釋,這些解釋不僅告知並引導模型的決策過程,而且使我們的框架在匹配現有深度學習方法診斷性能的同時,提供了支持其診斷結論的理據。