每日精選AI研究論文及翻譯
我们推出GLM-4.5,一个开源的专家混合(Mixture-of-Experts, MoE)大型语言模型,总参数量达3550亿,激活参数量为320亿,具备支持思维与直接响应模式的混合推理方法。通过对23万亿标记的多阶段训练,并结合专家模型迭代与强化学习的全面后训练,GLM-4.5在代理、推理及编码(ARC)任务上展现出强劲性能,在TAU-Bench上获得70.1%的得分,AIME 24上达到91.0%,SWE-bench Verified上取得64.2%的成绩。相较于多个竞争对手,GLM-4.5以更少的参数量,在所有评估模型中总体排名第三,在代理基准测试中位列第二。为推进推理与代理AI系统的研究,我们同时发布了GLM-4.5(3550亿参数)及其精简版GLM-4.5-Air(1060亿参数)。代码、模型及更多信息请访问https://github.com/zai-org/GLM-4.5。
虛擬試穿技術旨在合成人物穿著目標服裝的真實圖像,然而精確建模服裝與人體之間的對應關係仍是一大挑戰,尤其是在姿態和外觀變化的情況下。本文提出Voost——一個統一且可擴展的框架,通過單一擴散變壓器聯合學習虛擬試穿與試脫。通過共同建模這兩項任務,Voost使得每對服裝與人體能夠相互監督,並支持對生成方向及服裝類別的靈活條件控制,從而增強了服裝與人體關係的推理能力,無需特定任務網絡、輔助損失或額外標籤。此外,我們引入了兩種推理時技術:注意力溫度縮放以增強對分辨率或遮罩變化的魯棒性,以及自我校正採樣,該技術利用任務間的雙向一致性。大量實驗表明,Voost在試穿與試脫基準測試中均達到了最先進的成果,在對齊精度、視覺逼真度及泛化能力上持續超越強勁基線。
基於大型語言模型(LLMs)的代理在多樣化任務中表現卓越,然而其程序性記憶脆弱,通常依賴於手動設計或固化於靜態參數中。本研究探討了賦予代理可學習、可更新且終身持續的程序性記憶的策略。我們提出了Memp,它將過去的代理軌跡提煉為細粒度的逐步指令及更高層次的腳本式抽象,並探索了程序性記憶的構建、檢索與更新等不同策略的影響。結合一套動態機制,該記憶庫不斷更新、修正並淘汰其內容,與新經驗同步進化。在TravelPlanner和ALFWorld上的實證評估顯示,隨著記憶庫的完善,代理在類似任務上的成功率穩步提升,效率也顯著提高。此外,由更強模型構建的程序性記憶保持其價值:將此記憶遷移至較弱模型時,能帶來顯著的性能提升。
多模态大型語言模型(MLLMs)的出現,推動了基於純視覺輸入在圖形用戶界面(GUIs)上運作的自動代理的發展。其中一個根本性挑戰是穩健地將自然語言指令進行定位。這需要精確的空間對齊,即準確定位每個元素的座標,更關鍵的是正確的語義對齊,即將指令與功能上適當的UI元素相匹配。儘管帶有可驗證獎勵的強化學習(RLVR)已被證明在提升這些MLLMs的空間對齊方面有效,我們發現低效的探索阻礙了語義對齊,使得模型難以學習複雜的語義關聯。為解決這一探索問題,我們提出了自適應探索策略優化(AEPO),這是一種新的策略優化框架。AEPO採用多答案生成策略來強制更廣泛的探索,並由基於效率第一原理η=U/C推導出的理論基礎自適應探索獎勵(AER)函數進行指導。我們通過AEPO訓練的模型,InfiGUI-G1-3B和InfiGUI-G1-7B,在多個具有挑戰性的GUI定位基準測試中建立了新的最先進成果,相對於旨在測試泛化能力和語義理解的基準測試中的原始RLVR基線,實現了高達9.0%的顯著相對改進。相關資源可在https://github.com/InfiXAI/InfiGUI-G1獲取。
近期,大型推理模型(LRMs)通过扩展思维链(CoT)的长度,在代码推理方面展现了卓越的能力。然而,过长的推理轨迹在训练成本、推理延迟和部署可行性方面带来了重大挑战。尽管各种CoT压缩方法应运而生以应对这一挑战,但它们面临着固有的权衡:基于token级别的方法往往会破坏语法和逻辑连贯性,而基于困惑度的步骤级别方法则无法可靠地捕捉逻辑上关键的推理步骤。本文提出ASAP(锚点引导、基于意外度的剪枝),一种新颖的从粗到细的CoT压缩框架。ASAP首先执行锚点引导剪枝以保留核心推理结构,从而有效减少后续处理的搜索空间。随后,它通过基于新颖的首token意外度指标选择逻辑上必要的推理步骤,实现逻辑感知的剪枝。最后,ASAP教导模型在推理时自主生成并利用这些简洁的CoT,从而在编码任务中实现高效推理。实验表明,ASAP在多个代码生成基准测试中达到了最先进的准确率,同时大幅降低了训练和推理成本。在具有挑战性的LiveCodeBench v4_v5基准测试中,与最强基线相比,我们的方法减少了23.5%的token生成和43.5%的推理延迟,同时在Pass@1中实现了36.19%的竞争性准确率。我们的结果凸显了构建强大且高效的LRMs的一个有前景的方向。
在Transformer模型的隱藏狀態中,大規模激活是指那些數值遠超典型激活的標量值,這些值已被證明對模型功能至關重要。雖然先前的研究已經在完全訓練好的模型中對這些現象進行了特徵描述,但它們在訓練過程中出現的時間動態仍未被充分理解。我們首次對Transformer訓練過程中大規模激活的發展進行了全面分析,以Pythia模型系列作為測試平台。通過對多種模型大小在多個訓練檢查點上的系統分析,我們證明了大規模激活的出現遵循可預測的數學模式,這些模式可以用一個包含五個關鍵參數的指數調製對數函數精確建模。我們開發了一個機器學習框架,僅從架構規格就能預測這些數學參數,對於穩態行為達到了高精度,對於出現時間和幅度的預測則達到了中等精度。這些發現使架構師能夠通過設計選擇來預測並可能控制大規模激活出現的關鍵方面,這對模型的穩定性、訓練周期長度、可解釋性和優化具有重要意義。我們的研究結果表明,大規模激活的出現受模型設計的支配,並且可以在訓練開始前被預期,甚至可能被控制。
神經輻射場(NeRF)與高斯濺射(GS)技術近期革新了三維場景的表示與渲染方式。NeRF通過神經網絡學習體積表示,實現了高保真度的新視角合成,但其隱式編碼使得編輯與物理交互面臨挑戰。相比之下,GS將場景表示為顯式的高斯基元集合,支持實時渲染、更快的訓練速度以及更直觀的操作。這種顯式結構使GS特別適合於交互式編輯及與基於物理的模擬相結合。本文介紹了GENIE(高斯編碼用於神經輻射場交互編輯),這是一種混合模型,它結合了NeRF的逼真渲染質量與GS的可編輯結構化表示。我們並未採用球諧函數進行外觀建模,而是為每個高斯分配了一個可訓練的特徵嵌入。這些嵌入用於基於每個查詢點的k個最近高斯來條件化NeRF網絡。為了使這種條件化高效進行,我們引入了射線追蹤高斯鄰近搜索(RT-GPS),這是一種基於改進射線追蹤管線的快速最近高斯搜索方法。此外,我們還整合了多分辨率哈希網格來初始化並更新高斯特徵。這些組件共同實現了實時、局部感知的編輯:當高斯基元被重新定位或修改時,其插值影響會立即反映在渲染輸出中。通過結合隱式與顯式表示的優勢,GENIE支持直觀的場景操控、動態交互以及與物理模擬的兼容性,彌合了基於幾何的編輯與神經渲染之間的鴻溝。代碼可在(https://github.com/MikolajZielinski/genie)找到。
視覺-語言模型(VLMs)在多種任務中展現了卓越的泛化能力。然而,在未經任務特定適應的情況下直接應用於特定下游場景時,其表現往往仍不盡理想。為了在保持數據效率的同時提升其應用價值,近期研究日益聚焦於不依賴標籤數據的無監督適應方法。儘管這一領域的關注度不斷上升,但尚缺乏一個統一且以任務為導向的無監督VLM適應綜述。為填補這一空白,本文提供了該領域的全面且結構化的概述。我們基於未標記視覺數據的可用性與性質,提出了一種分類法,將現有方法歸納為四大關鍵範式:無數據遷移(無數據)、無監督領域遷移(豐富數據)、片段式測試時適應(批量數據)以及線上測試時適應(流數據)。在此框架內,我們分析了與各範式相關的核心方法論及適應策略,旨在建立對該領域的系統性理解。此外,我們回顧了跨多樣應用場景的代表性基準,並指出了未來研究中的開放性挑戰與潛在方向。相關文獻的動態維護庫可於https://github.com/tim-learn/Awesome-LabelFree-VLMs獲取。
創造如同《鋼鐵人》中虛構角色J.A.R.V.I.S.般能力全面且多才多藝的人工智慧助手,這一夢想長久以來激發了無數人的想像。隨著(多模態)大型語言模型((M)LLMs)的演進,這一夢想正逐步接近現實,基於(M)LLM的代理通過在操作系統(OS)提供的環境和界面(如圖形用戶界面(GUI))中操作計算設備(如電腦和手機)來自動化任務,已取得了顯著進展。本文對這些被稱為OS代理的高級代理進行了全面調查。我們首先闡明OS代理的基本原理,探討其關鍵組成部分,包括環境、觀察空間和動作空間,並概述理解、規劃和接地等核心能力。接著,我們考察構建OS代理的方法論,重點關注領域特定的基礎模型和代理框架。通過詳細回顧評估協議和基準測試,我們展示了OS代理在多樣化任務中的評估方式。最後,我們討論了當前面臨的挑戰,並指出了未來研究的有前景方向,包括安全與隱私、個性化與自我進化。本調查旨在整合OS代理研究的現狀,為學術探索與工業發展提供指導。我們維護了一個開源的GitHub倉庫,作為促進該領域進一步創新的動態資源。我們還提供了一份被ACL 2025接受的9頁版本工作,以簡明扼要地概述該領域。
我們提出MeshLLM,這是一個利用大型語言模型(LLMs)來理解並生成文本序列化3D網格的新穎框架。該方法針對現有技術中的關鍵限制進行了改進,包括在適應LLMs的令牌長度時數據集規模的局限性,以及在網格序列化過程中3D結構信息的丟失。我們引入了一種基元-網格分解策略,將3D網格劃分為具有結構意義的子單元。這一策略促成了包含超過150萬個樣本的大規模數據集的創建,其規模幾乎是之前方法的50倍,更符合LLM的規模化定律原則。此外,我們提出了從頂點推斷面連接性及局部網格組裝訓練策略,顯著增強了LLMs捕捉網格拓撲與空間結構的能力。實驗結果表明,MeshLLM在網格生成質量與形狀理解方面均超越了當前最先進的LLaMA-Mesh,展現了其在處理文本序列化3D網格方面的巨大潛力。
多模态大型語言模型(MLLMs)在高資源語言中展現了卓越的性能。然而,在低資源語言的背景下,其效能顯著下降。當前的多語言增強方法往往僅限於文本模態或單純依賴機器翻譯。雖然這些方法有助於模型獲取基本的語言能力並產生“淺層描述”,但它們忽視了多模態信息豐富性和文化根基的重要性,這兩者對於有效服務低資源語言使用者至關重要。為彌補這一差距,在本研究中,我們確定了在低資源語言環境中真正有效的MLLM的兩個重要目標,即1)語言能力和2)文化根基,特別強調文化意識。為實現這雙重目標,我們提出了一種雙源策略,指導針對每個目標收集數據,從本地網絡的替代文本中獲取文化信息,並利用MLLM生成的描述來增強語言學能力。作為具體實施,我們引入了MELLA,一個多模態、多語言的數據集。實驗結果顯示,在MELLA上進行微調後,各種MLLM骨幹在八種語言上的性能普遍提升,模型產生了“深層描述”。我們證實,性能提升來自於文化知識的增強和語言能力的提升。我們的數據集可在https://opendatalab.com/applyMultilingualCorpus找到。
視覺語言模型(VLMs)在整合語言與視覺推理方面展現了顯著的能力,但在理解動態時空交互作用方面仍存在根本性限制。人類能夠輕鬆追蹤並推理物體的移動、旋轉及視角轉換——這些能力對於穩健的動態現實世界理解至關重要,卻在當前VLMs中明顯缺失。本文中,我們介紹了VLM4D,這是首個專門設計用於評估VLMs時空推理能力的基準測試。我們的基準包含多樣化的真實世界與合成視頻,並配備了精心設計的問答對,重點關注平移與旋轉運動、視角意識及運動連續性。通過對現有開源與閉源VLMs的全面評估,我們發現與人類基準相比存在顯著的性能差距,凸顯了現有模型的基本缺陷。深入分析表明,VLMs在整合多重視覺線索及保持時間一致性方面尤為困難。我們進一步探索了有前景的方向,如利用四維特徵場重建及針對性的時空監督微調,展示了它們在增強時空理解方面的有效性。我們的工作旨在鼓勵更深入地探索提升VLMs的空間與時間基礎,為動態環境中更強大且可靠的視覺智能鋪平道路。
多模态大型語言模型(MLLMs)的出現,顯著推動了圖形用戶界面(GUI)代理能力的進步。然而,現有的GUI代理訓練與推理技術仍面臨著推理設計困境、獎勵機制無效及視覺噪聲等問題。為解決這些問題,我們引入了UI-AGILE,這是一個在訓練與推理階段均能提升GUI代理性能的綜合框架。在訓練方面,我們提出了一系列改進監督微調(SFT)過程的方法:1)引入連續獎勵函數以激勵高精度定位;2)設置“簡化思維”獎勵,以平衡規劃速度與定位準確性;3)採用基於裁剪的重採樣策略,緩解稀疏獎勵問題,並提升在複雜任務上的學習效果。在推理階段,我們提出了分解選擇定位法,這是一種通過將圖像分割成更小、更易管理的部分,從而大幅提高在高分辨率顯示器上定位準確性的新方法。實驗表明,UI-AGILE在ScreenSpot-Pro和ScreenSpot-v2兩個基準測試上達到了最先進的性能。例如,結合我們提出的訓練與推理增強方法,在ScreenSpot-Pro上相比最佳基線帶來了23%的定位準確性提升。
近期在3D重光照領域的研究顯示出將2D圖像重光照生成先驗整合以改變3D表現外觀,同時保留其基礎結構的潛力。然而,直接用於從輸入圖像直接重光照的2D重光照生成先驗,未能充分利用可推斷的主體內在屬性,也無法大規模考慮多視角數據,導致重光照效果欠佳。本文提出Lightswitch,一種新穎的微調材質重光照擴散框架,它能夠高效地將任意數量的輸入圖像重光照至目標光照條件,並融入推斷出的內在屬性線索。通過結合多視角與材質信息提示以及可擴展的去噪方案,我們的方法能夠一致且高效地對具有多樣材質構成的物體進行密集多視角數據重光照。我們證明,在2D重光照預測質量上,我們的方法超越了以往直接從圖像重光照的頂尖重光照先驗。此外,我們進一步展示,LightSwitch在重光照合成與真實物體時,僅需短短2分鐘,便能與或超越現有頂尖的擴散逆渲染方法。