每日精選AI研究論文及翻譯
我们推出GLM-4.1V-Thinking,这是一款旨在推动通用多模态推理的视觉语言模型(VLM)。在本报告中,我们分享了在开发以推理为核心的训练框架过程中的关键发现。我们首先通过大规模预训练开发了一个具有显著潜力的视觉基础模型,这无疑为最终性能设定了上限。随后,课程采样强化学习(RLCS)释放了模型的全部潜力,带来了包括STEM问题解决、视频理解、内容识别、编码、基础理解、基于GUI的代理以及长文档理解等多样化任务中的全面能力提升。为了促进该领域的研究,我们开源了GLM-4.1V-9B-Thinking,该模型在同等规模模型中实现了最先进的性能。在涵盖28个公共基准的全面评估中,我们的模型在几乎所有任务上均优于Qwen2.5-VL-7B,并在18个基准上相对于显著更大的Qwen2.5-VL-72B实现了相当甚至更优的性能。值得注意的是,GLM-4.1V-9B-Thinking在长文档理解和STEM推理等挑战性任务上,与GPT-4o等闭源模型相比,也展现了竞争性或更优的性能,进一步凸显了其强大的能力。代码、模型及更多信息发布于https://github.com/THUDM/GLM-4.1V-Thinking。
數學推理已成為大型語言模型(LLM)進步的標誌,新模型在MATH和AIME等基準測試中迅速超越人類水平。然而,隨著數學排行榜每週不斷提升,值得一問的是:這些進步是否反映了更廣泛的問題解決能力,還是僅僅是狹隘的過度擬合?為回答這一問題,我們評估了超過20個開源權重的推理微調模型,涵蓋數學、科學問答、智能體規劃、編程以及標準指令遵循等多種任務。令人驚訝的是,我們發現大多數在數學上成功的模型無法將其優勢轉移到其他領域。為嚴格研究這一現象,我們在Qwen3-14B模型上進行了控制實驗,使用僅限數學的數據但不同的微調方法。我們發現,強化學習(RL)微調的模型在各領域中表現出良好的泛化能力,而監督微調(SFT)的模型往往會遺忘一般能力。潛在空間表示和詞元空間分佈偏移分析揭示,SFT會導致顯著的表示和輸出漂移,而RL則保留了通用領域的結構。我們的結果表明,有必要重新思考標準的後訓練方法,特別是依賴於SFT蒸餾數據來推進推理模型的發展。
我們推出SciArena,這是一個開放且協作式的平台,用於評估基礎模型在科學文獻任務上的表現。與傳統的科學文獻理解與綜合基準不同,SciArena直接吸引研究社群參與,採用Chatbot Arena的評估方法,即由社群對模型比較進行投票。通過利用集體智慧,SciArena提供了一個社群驅動的評估,針對需要基於文獻的長篇回應的開放式科學任務進行模型性能評價。該平台目前支持23個開源和專有的基礎模型,並已收集來自不同科學領域的受信任研究者的超過13,000次投票。我們分析了迄今為止收集的數據,確認提交的問題具有多樣性,與現實世界的文獻需求相符,並且參與研究者在評估中展現出強烈的自我一致性和評分者間一致性。我們基於模型排名榜單討論了結果和洞察。為了進一步促進基於模型的自動評估系統在文獻任務中的研究,我們發布了SciArena-Eval,這是一個基於我們收集的偏好數據的元評估基準。該基準通過比較模型的成對評估與人類投票,來衡量模型在判斷答案質量上的準確性。我們的實驗凸顯了該基準的挑戰,並強調了需要更可靠的自動評估方法。
基於因果視覺語言模型(VLMs)構建的多模態嵌入模型,在多種任務中展現出潛力。然而,當前方法面臨三個主要限制:VLM骨幹中因果注意力的使用對於嵌入任務並非最優;依賴高質量標註配對數據進行對比學習所帶來的可擴展性問題;以及訓練目標和數據多樣性的不足。為解決這些問題,我們提出了MoCa,一個將預訓練VLMs轉化為高效雙向多模態嵌入模型的兩階段框架。第一階段,模態感知的持續預訓練,引入了一種聯合重建目標,同時對交錯的文本和圖像輸入進行去噪,增強了雙向上下文感知推理能力。第二階段,異質對比微調,利用超越簡單圖像-字幕對的多樣化、語義豐富的多模態數據,以提升泛化能力和對齊效果。我們的方法通過持續預訓練引入雙向注意力,利用聯合重建目標有效擴展至大規模未標註數據集,並使用多樣化的多模態數據來增強表徵的魯棒性,從而解決了上述限制。實驗表明,MoCa在MMEB和ViDoRe-v2基準測試中持續提升性能,達到了新的最先進水平,並在MMEB上展現出與模型規模和訓練數據的強大可擴展性。
近期擴散模型的進展已實現了高品質的影片生成,但額外的時間維度顯著增加了計算成本,使得長影片的訓練與推理變得極其昂貴。本文中,我們發現了一種現象,稱之為影片擴散模型中的時空能量衰減:後softmax注意力分數隨著token之間空間與時間距離的增加而減弱,類似於自然界中訊號或波在空間與時間上的物理衰減。基於此,我們提出了徑向注意力(Radial Attention),這是一種可擴展的稀疏注意力機制,具有O(n log n)的複雜度,將能量衰減轉化為指數衰減的計算密度,相比標準的O(n^2)密集注意力顯著更高效,且比線性注意力更具表現力。具體而言,徑向注意力採用了一種簡單、靜態的注意力遮罩,其中每個token僅關注空間上鄰近的token,且注意力窗口大小隨時間距離縮小。此外,它允許預訓練的影片擴散模型通過高效的LoRA微調來擴展其生成長度。大量實驗表明,徑向注意力在Wan2.1-14B、HunyuanVideo和Mochi 1上均保持了影片質量,相比原始密集注意力實現了最高1.9倍的加速。通過最小程度的調整,它能夠生成長度達4倍的影片,同時相比直接微調減少最高4.4倍的訓練成本,並相比密集注意力推理加速最高3.7倍。
擴散式大型語言模型(dLLMs)作為自迴歸(AR)模型的強有力替代方案,因其去噪模型作用於整個序列而備受關注。dLLMs的全局規劃與迭代優化特性在代碼生成領域尤為有用。然而,當前針對編碼任務的dLLMs訓練與推理機制仍未被充分探索。為揭示dLLMs的解碼行為並釋放其在編碼中的潛力,我們系統地研究了其去噪過程與強化學習(RL)方法。我們在130B代碼標記上訓練了一個7B參數的dLLM,名為DiffuCoder。以此模型為測試平臺,我們分析了其解碼行為,發現其與AR模型的顯著差異:(1)dLLMs能夠在不依賴半自迴歸解碼的情況下決定生成的因果性程度;(2)提高採樣溫度不僅能多樣化標記選擇,還能改變其生成順序。這種多樣性為RL的rollouts創造了豐富的搜索空間。針對RL訓練,為降低標記對數似然估計的方差並保持訓練效率,我們提出了coupled-GRPO,一種新穎的採樣方案,它為訓練中使用的補全構建互補的掩碼噪聲。在實驗中,coupled-GRPO顯著提升了DiffuCoder在代碼生成基準上的表現(EvalPlus上提升+4.4%),並減少了對AR因果性的依賴。我們的工作深入洞察了dLLM生成的機制,並提供了一個有效的、專為擴散模型設計的RL訓練框架。https://github.com/apple/ml-diffucoder。
機器是否能夠真正像人類一樣思考、推理並在各個領域中行動?這個歷久彌新的問題持續塑造著對人工通用智能(AGI)的追求。儘管如GPT-4.5、DeepSeek、Claude 3.5 Sonnet、Phi-4和Grok 3等模型展現出多模態流暢性和部分推理能力,這些系統仍然受到其依賴於詞元級預測和缺乏紮根代理的根本限制。本文提供了一個跨學科的AGI發展綜述,涵蓋人工智慧、認知神經科學、心理學、生成模型和基於代理的系統。我們分析了通用智能的架構和認知基礎,強調了模組化推理、持久記憶和多代理協調的作用。特別地,我們強調了結合檢索、規劃和動態工具使用的代理式RAG框架的興起,這些框架促進了更具適應性的行為。我們討論了泛化策略,包括信息壓縮、測試時適應和無訓練方法,作為實現靈活、領域無關智能的關鍵途徑。視覺-語言模型(VLMs)被重新審視,不僅作為感知模組,更是作為體現理解和協作任務完成的進化接口。我們還主張,真正的智能不僅來自規模,更來自記憶與推理的整合:一個由模組化、互動性和自我改進組件組成的協調系統,其中壓縮促成了適應性行為。借鑒神經符號系統、強化學習和認知支架的進展,我們探討了最近的架構如何開始彌合統計學習與目標導向認知之間的差距。最後,我們指出了通往AGI道路上的關鍵科學、技術和倫理挑戰。
隨著多模態大型語言模型的快速發展,深入理解和詮釋人類意圖的能力已成為一項關鍵技能,這需要細緻且周密的推理。在最近的研究中,強化學習(RL)展現了提升大型語言模型(LLMs)推理能力的潛力。然而,將RL適應於多模態數據和格式的挑戰在很大程度上仍未得到解決。本文中,我們指出了現有多模態推理模型中的兩個問題:全局上下文理解不足和捷徑問題。當模型誤解多模態上下文時,可能導致錯誤答案,即為上下文理解不足。捷徑問題則發生在模型忽視多模態輸入中的關鍵線索,直接回答查詢而不考慮多模態信息。為解決這些問題,我們強調模型在推理時需清晰理解多模態輸入中的全局上下文。這種全局上下文理解能有效防止模型忽略關鍵的多模態線索,確保推理過程的全面性。為確保多模態上下文信息的準確解讀,我們實施了由大型語言模型評判的上下文獎勵,以及格式和準確性獎勵。此外,為提升複雜推理能力,我們利用LLM評估邏輯獎勵,判斷推理過程是否成功整合了多模態信息與邏輯方法。我們還引入了推理全模態基準IntentBench,旨在評估模型在理解複雜人類意圖和情感方面的表現。與其他開源全模態模型相比,我們提出的方法在多個全模態基準上展現了卓越的性能。
非模態分割與非模態內容補全需利用物體先驗知識來估計複雜場景中被遮擋物體的掩碼與特徵。迄今為止,尚無數據集能為物體上下文提供額外的維度:即多個攝像頭共享同一場景視角的可能性。我們推出了MOVi-MC-AC:多攝像頭下的多物體視頻與非模態內容,這是迄今為止最大的非模態分割及首個非模態內容數據集。該數據集模擬了多攝像頭視頻中普通家居物品的雜亂場景。MOVi-MC-AC通過引入兩項新貢獻,豐富了計算機視覺領域深度學習在物體檢測、追蹤及分割方面的文獻。多攝像頭(MC)設置下,物體能在不同獨特攝像頭視角間被識別與追蹤,這在合成與現實世界視頻中均屬罕見。我們通過為單一場景中每幀及多個攝像頭(各具獨特特徵與運動模式)的檢測與分割提供一致的物體ID,為合成視頻引入了新的複雜性。非模態內容(AC)是一項重建任務,模型需預測目標物體在遮擋下的外觀。在非模態分割文獻中,已有部分數據集發布了非模態檢測、追蹤及分割標籤。而其他方法依賴於耗時的剪切粘貼方案生成非模態內容偽標籤,卻未考慮模態掩碼中存在的自然遮擋。MOVi-MC-AC提供了約580萬個物體實例的標籤,創下了非模態數據集文獻的新高,並首次提供了真實的非模態內容。完整數據集可訪問https://huggingface.co/datasets/Amar-S/MOVi-MC-AC獲取。
多模态大型语言模型(MLLMs)在自然图像、富含文本的文档及平面设计等领域已展现出卓越的视觉推理能力。然而,其在解读乐谱方面的潜力尚待深入挖掘。为填补这一空白,我们推出了MusiXQA,首个旨在评估并推动MLLMs在乐谱理解领域发展的综合性数据集。MusiXQA集成了通过MusiXTeX生成的高质量合成乐谱,并附有结构化标注,涵盖音符音高与时值、和弦、谱号、调号/拍号及文本信息,支持多样化的视觉问答任务。通过广泛评估,我们揭示了当前顶尖MLLMs在此领域的显著局限。除基准测试外,我们还开发了Phi-3-MusiX,一款基于本数据集微调的MLLM,相较于基于GPT的方法实现了显著的性能提升。所提出的数据集与模型为未来MLLMs在乐谱理解方面的进步奠定了基石。代码、数据及模型将在论文接受后公开发布。
數據是語言模型(LM)訓練的基礎。近期研究致力於數據效率,旨在通過選擇最小或最優的訓練數據子集來最大化性能。數據過濾、採樣和選擇等技術在這一領域扮演著關鍵角色。作為補充,我們定義了數據效能,其重點在於通過優化訓練數據的組織來最大化性能,這一領域相對尚未充分探索。本研究引入了一個通用範式DELT,用於在LM訓練中考慮數據效能,強調了訓練數據組織的重要性。DELT包含三個組件:數據評分、數據選擇和數據排序。在這些組件中,我們設計了可學習性-質量評分(LQS),作為數據評分的一個新實例,它從梯度一致性的角度考慮了每個數據樣本的可學習性和質量。我們還設計了折疊排序(FO),作為數據排序的一個新實例,它解決了模型遺忘和數據分佈偏差等問題。全面的實驗驗證了數據效能在LM訓練中的有效性,展示了以下幾點:首先,提出的DELT的各種實例在不增加數據規模和模型大小的情況下,不同程度地提升了LM的性能。其次,在這些實例中,我們提出的LQS用於數據評分和折疊用於數據排序的組合實現了最顯著的改進。最後,通過應用數據選擇,數據效能可以與數據效率共同實現。因此,我們相信數據效能是LM訓練中一個有前景的基礎領域。
近期,视频生成模型的进展已实现了从文本提示生成高质量短视频的能力。然而,将这些模型扩展至生成长视频仍面临重大挑战,主要原因是时间一致性和视觉保真度的下降。我们的初步观察表明,简单地将短视频生成模型应用于长序列会导致明显的质量退化。进一步分析揭示了一个系统性趋势,即随着视频长度的增加,高频成分逐渐失真,这一问题我们称之为高频失真。为解决此问题,我们提出了FreeLong,一种无需训练即可在去噪过程中平衡长视频特征频率分布的框架。FreeLong通过融合全局低频特征(捕捉整个视频的整体语义)与从短时间窗口提取的局部高频特征(保留细节)来实现这一目标。在此基础上,FreeLong++将FreeLong的双分支设计扩展为多分支架构,每个分支在不同的时间尺度上运行。通过安排从全局到局部的多个窗口大小,FreeLong++实现了从低频到高频的多频带融合,确保了长视频序列中的语义连续性和精细运动动态。无需额外训练,FreeLong++即可插入现有视频生成模型(如Wan2.1和LTX-Video)中,生成时间一致性和视觉保真度显著提升的长视频。我们证明,我们的方法在长视频生成任务(如原生长度的4倍和8倍)上优于以往方法。它还支持具有平滑场景转换的连贯多提示视频生成,并允许使用长深度或姿态序列进行可控视频生成。
視覺語言模型(VLMs)在描述性任務上表現卓越,但其是否真正理解視覺觀察中的場景仍不確定。我們引入了IR3D-Bench,這是一個挑戰VLMs通過主動創造而非被動識別來展示理解的基準。基於分析-合成範式,IR3D-Bench要求視覺語言代理(VLAs)積極使用編程和渲染工具來重建輸入圖像的底層3D結構,通過工具使用實現代理逆向渲染。這種“通過創造來理解”的方法探測了VLAs的工具使用生成能力,超越了傳統場景理解基準所測量的描述性或對話能力。我們提供了一套全面的指標來評估幾何精度、空間關係、外觀屬性和整體合理性。基於各種最先進VLMs的代理逆向渲染初步實驗揭示了當前的局限性,特別是在視覺精度而非基本工具使用方面。IR3D-Bench,包括數據和評估協議,已發布以促進系統性研究和開發工具使用的VLAs,通過創造實現真正的場景理解。
歐盟執法機構的一份報告預測,到2026年,高達90%的線上內容可能由人工合成生成,這引起了政策制定者的擔憂。他們警告稱,「生成式人工智慧可能成為政治虛假信息的倍增器。生成式文本、圖像、視頻和音頻的綜合影響可能超越任何單一模態的影響力。」作為回應,加利福尼亞州的AB 3211法案要求對AI生成的圖像、視頻和音頻進行水印標記。然而,隱形水印技術易受篡改的脆弱性以及惡意行為者可能完全繞過這些技術的風險仍然存在。生成式人工智慧驅動的去水印攻擊,尤其是新引入的視覺改寫攻擊,已顯示出完全去除水印的能力,從而生成原始圖像的改寫版本。本文介紹了PECCAVI,這是首個能夠抵禦視覺改寫攻擊且無失真的圖像水印技術。在視覺改寫攻擊中,圖像被修改,但其核心語義區域(稱為非熔點,NMPs)得以保留。PECCAVI策略性地將水印嵌入這些NMPs中,並採用多通道頻域水印技術。此外,它還引入了噪聲打磨技術,以對抗旨在定位NMPs以破壞嵌入水印的反向工程努力,從而增強了水印的耐久性。PECCAVI是模型無關的。所有相關資源和代碼將開源。
大型語言模型(LLMs)通過如思維鏈(Chain-of-Thought, CoT)和思維樹(Tree-of-Thought, ToT)等先進提示技術,在複雜任務中表現卓越,但其依賴於手動設計、任務特定的提示,限制了適應性和效率。我們引入了混合推理(Mixture of Reasoning, MoR),這是一種訓練框架,將多樣化的推理策略嵌入LLMs中,實現自主、任務自適應的推理,無需外部提示工程。MoR包含兩個階段:思維生成,使用如GPT-4o等模型創建推理鏈模板;以及監督微調數據集構建,將模板與基準數據集配對進行監督微調。我們的實驗表明,MoR顯著提升了性能,MoR150在使用CoT提示時達到了0.730(提升2.2%),與基線相比達到了0.734(提升13.5%)。MoR消除了對任務特定提示的需求,提供了一種可泛化的解決方案,適用於多樣化任務的穩健推理。
我們介紹Ella,這是一個具身化的社交智能體,能夠在3D開放世界中的社群內進行終身學習,智能體通過日常的視覺觀察和社交互動積累經驗並獲取知識。Ella能力的核心在於一個結構化的長期多模態記憶系統,該系統能有效存儲、更新和檢索信息。它由以名稱為中心的語義記憶(用於組織獲取的知識)和時空情節記憶(用於捕捉多模態體驗)組成。通過將這一終身記憶系統與基礎模型相結合,Ella能夠檢索相關信息以進行決策、規劃日常活動、建立社交關係,並在與開放世界中其他智能體共存的同時自主進化。我們在一個動態的3D開放世界中進行了能力導向的評估,其中15個智能體參與了為期數天的社交活動,並通過一系列未見的受控評估進行測試。實驗結果表明,Ella能夠很好地影響、領導並與其他智能體合作以達成目標,展示了其通過觀察和社交互動有效學習的能力。我們的研究成果凸顯了將結構化記憶系統與基礎模型相結合在推進具身智能方面的變革性潛力。更多視頻可訪問https://umass-embodied-agi.github.io/Ella/。
精確的材料建模對於實現逼真的渲染至關重要,它縮小了計算機生成圖像與真實世界照片之間的差距。傳統方法依賴於表格化的雙向反射分佈函數(BRDF)數據,而近期研究則轉向隱式神經表示,這為多種任務提供了緊湊且靈活的框架。然而,這些方法在頻域中的行為仍鮮為人知。為此,我們引入了FreNBRDF,一種頻率校正的神經材料表示。通過利用球諧函數,我們將頻域考量整合到神經BRDF建模中。我們提出了一種新穎的頻率校正損失函數,該函數源自對神經材料的頻率分析,並將其納入一個可泛化且自適應的重建與編輯流程中。這一框架提升了保真度、適應性和效率。大量實驗表明,與最先進的基線方法相比,FreNBRDF提高了材料外觀重建與編輯的準確性和魯棒性,從而實現了更具結構性和可解釋性的下游任務與應用。
3D高斯潑濺技術雖能實現高品質的即時渲染,但通常會產生數百萬個潑濺點,導致過度的儲存與計算開銷。我們提出了一種基於可學習置信度分數的新型有損壓縮方法,這些分數被建模為Beta分佈。每個潑濺點的置信度通過重建感知的損失函數進行優化,從而能夠在保持視覺保真度的同時,剔除低置信度的潑濺點。所提出的方法與架構無關,可應用於任何高斯潑濺變體。此外,平均置信度值可作為評估場景品質的新指標。大量實驗表明,與先前工作相比,該方法在壓縮與保真度之間達到了更優的平衡。我們的程式碼與資料已公開於https://github.com/amirhossein-razlighi/Confident-Splatting。