每日精選AI研究論文及翻譯
基於大型語言模型(LLMs)驅動的深度研究代理正迅速發展;然而,在使用通用的測試時擴展算法生成複雜的長篇研究報告時,其性能往往會達到瓶頸。受人類研究中迭代性質的啟發,即包含搜索、推理和修訂的循環,我們提出了測試時擴散深度研究員(TTD-DR)。這一新穎框架將研究報告的生成概念化為一個擴散過程。TTD-DR從初步草稿開始這一過程,這是一個可更新的骨架,作為引導研究方向的演進基礎。草稿隨後通過“去噪”過程進行迭代精煉,該過程在每一步都動態地由檢索機制提供外部信息。核心過程進一步通過應用於代理工作流程每個組件的自進化算法得到增強,確保為擴散過程生成高質量的上下文。這種以草稿為中心的設計使報告撰寫過程更加及時和連貫,同時減少了迭代搜索過程中的信息損失。我們展示了TTD-DR在需要密集搜索和多跳推理的廣泛基準測試中取得了最先進的成果,顯著超越了現有的深度研究代理。
將大型語言模型(LLMs)的權重從16位元量化至更低位元,是將龐大變壓器模型部署到更經濟實惠加速器上的實際做法。GPTQ作為LLM規模下一次訓練後量化的標準方法之一應運而生。然而,其內部運作被描述為一系列臨時代數更新,掩蓋了任何幾何意義或最壞情況下的保證。在本研究中,我們證明,當對線性層從後向前(從最後一個維度到第一個維度)執行時,GPTQ在數學上等同於Babai針對由層輸入的Hessian矩陣定義的格上經典最近向量問題(CVP)的最近平面算法。這一等價性基於一個精妙的數學論證,並帶來兩個分析性後果:(i) GPTQ的誤差傳播步驟獲得了直觀的幾何解釋;(ii) 在無裁剪條件下,GPTQ繼承了Babai算法的誤差上限。綜合來看,這些結果將GPTQ置於堅實的理論基礎之上,並為未來針對數十億參數模型的量化算法設計引入數十年格算法進展打開了大門。
我們推出了MMBench-GUI,這是一個分層次的基準測試,用於評估跨Windows、macOS、Linux、iOS、Android及Web平台的圖形用戶界面(GUI)自動化代理。該基準包含四個層級:GUI內容理解、元素定位、任務自動化及任務協作,涵蓋了GUI代理所需的核心技能。此外,我們提出了一種新穎的效率-質量面積(EQA)指標,用以評估在線自動化場景下GUI代理的執行效率。通過MMBench-GUI,我們發現精確的視覺定位是決定整體任務成功的關鍵因素,強調了集成專門定位模塊的模塊化框架所帶來的顯著優勢。進一步地,要實現可靠的GUI自動化,代理需要具備強大的任務規劃與跨平台泛化能力,其中長上下文記憶、廣闊的行動空間及長期推理扮演著至關重要的角色。更重要的是,任務效率仍是一個極少被探索的維度,所有模型都存在顯著的效率低下問題,即便任務最終完成,也伴隨著過多的冗餘步驟。精確定位、有效規劃及早期停止策略的整合,對於實現真正高效且可擴展的GUI自動化不可或缺。我們的基準代碼、評估數據及運行環境將公開於https://github.com/open-compass/MMBench-GUI。
多模态大型語言模型(MLLMs)已取得顯著進展,這主要得益於其處理日益長且複雜上下文的能力,例如高分辨率圖像、延長的視頻序列以及冗長的音頻輸入。雖然這種能力極大地增強了MLLM的功能,但也引入了顯著的計算挑戰,這主要是由於自注意力機制在處理大量輸入標記時的二次方複雜性。為緩解這些瓶頸,標記壓縮已成為一種前景廣闊且至關重要的方法,在訓練和推理過程中有效地減少了標記數量。本文首次對多模態長上下文標記壓縮這一新興領域進行了系統性的調查與綜合。認識到有效的壓縮策略與每種模態的獨特特性和冗餘密切相關,我們根據其主要數據焦點對現有方法進行了分類,使研究人員能夠快速獲取並學習針對其特定興趣領域的方法:(1)以圖像為中心的壓縮,解決視覺數據中的空間冗餘;(2)以視頻為中心的壓縮,處理動態序列中的時空冗餘;以及(3)以音頻為中心的壓縮,處理聲學信號中的時間和頻譜冗餘。除了這種模態驅動的分類外,我們還根據其基礎機制進一步剖析了方法,包括基於變換、基於相似性、基於注意力和基於查詢的方法。通過提供全面且結構化的概述,本調查旨在鞏固當前進展,識別關鍵挑戰,並激發這一快速發展領域的未來研究方向。我們還維護了一個公共存儲庫,以持續追踪和更新這一有前景領域的最新進展。
大型語言模型(LLMs)正越來越多地通過強化學習(RL)方法,如群體相對策略優化(GRPO),來適應下游任務,這些方法通常需要數千次模擬來學習新任務。我們認為,與來自稀疏、標量獎勵的策略梯度相比,語言的解釋性本質往往能為LLMs提供更豐富的學習媒介。為驗證這一點,我們引入了GEPA(遺傳-帕累托),這是一種提示優化器,它徹底整合了自然語言反思,以從試錯中學習高層次規則。對於任何包含一個或多個LLM提示的AI系統,GEPA會採樣系統級軌跡(例如,推理、工具調用和工具輸出),並用自然語言對其進行反思,以診斷問題、提出並測試提示更新,並結合來自其自身嘗試的帕累托前沿的互補教訓。由於GEPA的設計,它通常能將僅有的幾次模擬轉化為顯著的質量提升。在四項任務中,GEPA平均比GRPO高出10%,最高可達20%,同時使用的模擬次數最多減少35倍。GEPA還在兩種LLMs上領先於主要的提示優化器MIPROv2,超過10%,並展示了作為代碼優化的推理時搜索策略的潛力。
大型語言模型(LLMs)的評估日益依賴於其他LLMs擔任評判角色。然而,當前的評估範式通常僅產生單一的分數或排名,僅能回答哪個模型更優,卻無法解釋其原因。雖然這些頂層分數對於基準測試至關重要,但它們掩蓋了模型性能背後具體且可操作的原因。為彌補這一差距,我們引入了CLEAR,這是一個基於LLM的互動式開源錯誤分析套件。CLEAR首先生成每例文本反饋,隨後創建一系列系統級錯誤問題,並量化每個已識別問題的普遍性。我們的套件還為用戶提供了一個互動式儀表板,通過聚合視覺化進行全面的錯誤分析,應用互動式過濾器來隔離特定問題或分數範圍,並深入至展示特定行為模式的個別實例。我們展示了CLEAR在RAG和數學基準測試中的分析,並通過用戶案例研究展示了其實用性。
語言模型(LMs)容易受到上下文獎勵欺騙的影響,即它們利用有缺陷或錯誤的書面規範或評分標準中的漏洞,在不滿足用戶真實意圖的情況下獲得高分。我們提出了規範自我修正(Specification Self-Correction, SSC),這是一種新穎的測試時框架,使語言模型能夠識別並修正其自身指導規範中的缺陷。SSC採用多步推理過程,模型首先基於可能存在問題的規範生成回應,對其輸出進行批判,然後修正規範本身以消除可利用的漏洞。接著,使用這個自我修正後的規範生成最終更為穩健的回應。在涵蓋創意寫作和代理編碼任務的多個語言模型實驗中,我們證明,雖然模型最初在50-70%的情況下會利用有缺陷的規範,但SSC過程將這種脆弱性降低了90%以上。這種動態修復發生在推理階段,無需修改模型權重,並能引導模型行為更加穩健地對齊。代碼位於https://github.com/vicgalle/specification-self-correction。
儘管端到端自動駕駛模型展現出令人期待的成果,但其實際部署往往受到大型模型體積、對昂貴LiDAR感測器的依賴以及計算密集的鳥瞰圖(BEV)特徵表示的限制。這尤其影響了僅配備相機的大眾市場車輛的可擴展性。為應對這些挑戰,我們提出了PRIX(從原始像素規劃)。我們新穎且高效的端到端駕駛架構僅使用相機數據運作,無需顯式的BEV表示,也無需LiDAR。PRIX結合視覺特徵提取器與生成式規劃頭,直接從原始像素輸入預測安全軌跡。我們架構的核心組件是上下文感知重校準變壓器(CaRT),這是一個新穎模塊,旨在有效增強多層次視覺特徵,以實現更穩健的規劃。通過全面實驗,我們證明PRIX在NavSim和nuScenes基準測試中達到了最先進的性能,與更大規模、多模態的擴散規劃器能力相當,同時在推理速度和模型大小方面顯著更高效,使其成為現實世界部署的實用解決方案。我們的工作是開源的,代碼將發佈於https://maxiuw.github.io/prix。
为理解并识别快速进步的人工智能(AI)模型所带来的前所未有的风险,本报告对其前沿风险进行了全面评估。借鉴《前沿人工智能风险管理框架(v1.0)》(SafeWork-F1-Framework)中的E-T-C分析(部署环境、威胁来源、赋能能力),我们在七个关键领域识别出主要风险:网络攻击、生物与化学风险、说服与操控、失控的自主AI研发、战略欺骗与谋划、自我复制以及合谋。依据“AI-45°法则”,我们采用“红线”(不可容忍的阈值)与“黄线”(早期预警指标)来划分风险区域:绿色(可管理风险,适用于常规部署与持续监控)、黄色(需加强缓解措施并控制部署)及红色(需暂停开发与/或部署)。实验结果显示,近期所有前沿AI模型均处于绿色与黄色区域,未触及红线。具体而言,在评估的网络攻击或失控AI研发风险方面,未有模型跨越黄线。对于自我复制,以及战略欺骗与谋划,多数模型保持在绿色区域,仅部分推理模型位于黄色区域。在说服与操控方面,因模型对人类的有效影响,多数模型处于黄色区域。至于生物与化学风险,尽管需通过详细威胁建模与深入评估以进一步断言,但我们无法排除多数模型位于黄色区域的可能性。此工作反映了我们当前对AI前沿风险的理解,并呼吁采取集体行动以应对这些挑战。
AI視訊聊天作為即時通訊(RTC)的新範式,其中一方並非人類,而是多模態大型語言模型(MLLM)。這使得人與AI之間的互動更加直觀,彷彿與真人面對面交談。然而,這對延遲提出了重大挑戰,因為MLLM推理佔據了大部分回應時間,留給視訊串流的時間極少。由於網路的不確定性和不穩定性,傳輸延遲成為阻礙AI表現得像真人的關鍵瓶頸。為此,我們提出了Artic,一個面向AI的即時通訊框架,探討從“人類觀看視訊”到“AI理解視訊”的網路需求轉變。為了在保持MLLM準確性的同時大幅降低位元率,我們提出了上下文感知視訊串流技術,該技術識別每個視訊區域對聊天的重要性,並幾乎將所有位元率分配給聊天重要的區域。為了避免封包重傳,我們提出了抗損失自適應幀率技術,利用前一幀來替代丟失或延遲的幀,同時避免位元率浪費。為了評估視訊串流品質對MLLM準確性的影響,我們建立了首個基準測試,名為降質視訊理解基準(DeViBench)。最後,我們討論了AI視訊聊天中的一些開放性問題及正在進行的解決方案。
在無監督領域自適應語義分割(UDA-SS)中,模型首先在有標籤的源域數據(例如合成圖像)上進行訓練,然後在無標籤的目標域(例如真實世界圖像)上進行適應,而無需訪問目標域的註釋。現有的UDA-SS方法往往難以平衡細粒度的局部細節與全局上下文信息,導致在複雜區域出現分割錯誤。為解決這一問題,我們引入了自適應特徵精煉(AFR)模塊,該模塊通過利用低分辨率logits中的語義先驗來精煉高分辨率特徵,從而提升分割精度。AFR還整合了高頻成分,這些成分捕捉了細粒度結構並提供了關鍵的邊界信息,改善了物體輪廓的描繪。此外,AFR通過不確定性驅動的注意力機制自適應地平衡局部與全局信息,減少了誤分類。其輕量級設計使其能夠無縫集成到基於HRDA的UDA方法中,實現了最先進的分割性能。我們的方法在GTA V --> Cityscapes上將現有UDA-SS方法的mIoU提升了1.05%,在Synthia-->Cityscapes上提升了1.04%。我們框架的實現可在此處獲取:https://github.com/Masrur02/AFRDA。