每日精選AI研究論文及翻譯
大型語言模型(LLMs)的出現催化了人工智慧領域的轉型變革,為能夠進行複雜推理、具備穩健感知能力並在多樣化領域中靈活行動的高級智能代理鋪平了道路。隨著這些代理日益驅動著AI研究與實際應用,其設計、評估及持續改進面臨著錯綜複雜的多方面挑戰。本綜述提供了一個全面的概覽,將智能代理置於一個模組化、受大腦啟發的架構中,該架構整合了認知科學、神經科學及計算機研究的原理。我們將探索分為四個相互關聯的部分。首先,深入探討智能代理的模組化基礎,系統地將其認知、感知及操作模組對應於人類大腦的類似功能,並闡明諸如記憶、世界建模、獎勵處理及類情感系統等核心組件。其次,討論自我增強與適應性進化機制,探討代理如何自主精進其能力、適應動態環境,並通過自動化優化範式(包括新興的AutoML及LLM驅動的優化策略)實現持續學習。第三,考察協作與進化的多代理系統,研究代理間互動、合作及社會結構中湧現的集體智慧,強調其與人類社會動態的相似之處。最後,探討構建安全、可靠且有益的AI系統的關鍵必要性,強調內在與外在的安全威脅、倫理對齊、魯棒性以及實現可信賴實際部署所需的實用緩解策略。
訓練大型語言模型(LLMs)面臨諸多挑戰,其中包括梯度不穩定性和損失突增。這些現象可能導致災難性發散,需要耗費大量資源進行檢查點恢復和數據批次跳過。傳統的梯度裁剪技術,如固定值或基於範數的方法,由於依賴於固定閾值或啟發式規則,無法有效解決這些問題,導致學習效率低下且需要頻繁手動干預。在本研究中,我們提出了ZClip,一種自適應梯度裁剪算法,它根據梯度範數隨時間變化的統計特性動態調整裁剪閾值。與以往的被動策略不同,ZClip無需對梯度範數的規模和時間演變做出任何先驗假設,便能主動適應訓練動態。其核心在於利用基於z分數的異常檢測來識別並緩解大幅梯度突增,從而防止惡性損失突增,同時不干擾模型的正常收斂。我們的代碼已公開於:https://github.com/bluorion-com/ZClip。
大型多模态模型(LMMs)在视觉理解和生成方面取得了显著进展,但在通用视觉编辑领域仍面临挑战,特别是在遵循复杂指令、保持外观一致性以及支持灵活输入格式方面。为填补这一空白,我们推出了RISEBench,这是首个用于评估推理引导视觉编辑(RISE)的基准。RISEBench聚焦于四种关键推理类型:时序推理、因果推理、空间推理和逻辑推理。我们为每种类别精心策划了高质量测试案例,并提出了一个评估框架,该框架通过人类评审和LMM作为评审的方法,对指令推理、外观一致性和视觉合理性进行评估。我们的实验表明,尽管GPT-4o-Native显著优于其他开源和专有模型,但即使是这一最先进的系统在逻辑推理任务上也表现挣扎,凸显了一个尚未充分探索的领域。作为初步尝试,RISEBench旨在为推理感知的视觉编辑提供基础性见解,并推动未来研究。尽管仍处于早期阶段,我们致力于不断扩展和完善该基准,以支持对下一代多模态系统进行更全面、可靠和可扩展的评估。我们的代码和数据将在https://github.com/PhoenixZ810/RISEBench发布。
OpenAI的GPT4o模型近期取得的突破性進展,在圖像生成與編輯方面展現出令人驚喜的能力,引發了學術界的廣泛關注。本技術報告首次提出了一個名為GPT-ImgEval的評估基準,從定量與定性兩個角度,對GPT-4o在三個關鍵維度的表現進行了診斷:(1)生成質量,(2)編輯能力,以及(3)基於世界知識的語義合成。在所有三項任務中,GPT-4o均表現出色,在圖像生成控制與輸出質量上大幅超越現有方法,同時展現了卓越的知識推理能力。此外,基於GPT-4o生成的數據,我們提出了一種基於分類模型的方法來探究GPT-4o的底層架構,實驗結果表明該模型由自回歸(AR)與基於擴散的圖像解碼頭部結合而成,而非類似VAR的架構。我們還對GPT-4o的整體架構進行了完整的推測。此外,我們進行了一系列分析,以識別並可視化GPT-4o在圖像生成中的特定限制及常見的合成偽影。我們還對GPT-4o與Gemini 2.0 Flash在多輪圖像編輯方面進行了比較研究,並探討了GPT-4o輸出的安全性問題,特別是現有圖像鑑識模型對其的檢測能力。我們希望這項工作能提供有價值的見解,並建立一個可靠的基準,以指導未來研究,促進可重現性,並加速圖像生成及其他領域的創新。用於評估GPT-4o的代碼與數據集可在https://github.com/PicoTrex/GPT-ImgEval找到。
本文介紹了JavisDiT,一種新穎的聯合音頻-視頻擴散變壓器,專為同步音頻-視頻生成(JAVG)而設計。基於強大的擴散變壓器(DiT)架構,JavisDiT能夠從開放式用戶提示中同時生成高質量的音頻和視頻內容。為了確保最佳同步,我們通過分層時空同步先驗(HiST-Sypo)估計器引入了一種細粒度的時空對齊機制。該模塊提取全局和細粒度的時空先驗,指導視覺和聽覺組件之間的同步。此外,我們提出了一個新的基準,JavisBench,包含10,140個高質量的帶有文本字幕的有聲視頻,涵蓋多樣場景和複雜的現實世界情境。進一步,我們特別設計了一個穩健的指標,用於評估在現實世界複雜內容中生成的音頻-視頻對之間的同步性。實驗結果表明,JavisDiT通過確保高質量生成和精確同步,顯著優於現有方法,為JAVG任務設定了新標準。我們的代碼、模型和數據集將在https://javisdit.github.io/上公開提供。
強化學習(RL)在大規模語言模型(LLMs)的後訓練中已被廣泛採用。近期,通過RL激勵LLMs的推理能力表明,適當的學習方法能夠實現有效的推理時可擴展性。RL的一個關鍵挑戰在於如何為LLMs在多種領域中獲取準確的獎勵信號,這些領域超越了可驗證問題或人工規則。在本研究中,我們探討了如何通過增加推理計算來改進通用查詢的獎勵建模(RM),即通用RM的推理時可擴展性,並進一步探討如何通過適當的學習方法提升性能-計算擴展的有效性。對於RM方法,我們採用了點對點生成式獎勵建模(GRM),以實現對不同輸入類型的靈活性及推理時擴展的潛力。在學習方法上,我們提出了自我原則批判微調(SPCT),通過在線RL培養GRM中的可擴展獎勵生成行為,自適應地生成原則並準確地進行批判,從而產生了DeepSeek-GRM模型。此外,為了實現有效的推理時擴展,我們使用並行採樣來擴展計算使用,並引入元RM來指導投票過程,以獲得更好的擴展性能。實證結果顯示,SPCT顯著提升了GRM的質量和可擴展性,在各種RM基準測試中超越了現有方法和模型,且未出現嚴重偏差,相比訓練時擴展能取得更優性能。DeepSeek-GRM在某些任務中仍面臨挑戰,我們相信這些挑戰可以通過未來在通用獎勵系統上的努力得到解決。這些模型將被發布並開源。
頭像合成技術對於虛擬化身和人機互動至關重要。然而,現有方法大多僅限於接受單一主要模態的控制,限制了其實際應用價值。為此,我們提出了ACTalker,這是一個端到端的視頻擴散框架,支持多信號控制和單信號控制,用於生成頭像視頻。針對多信號控制,我們設計了一種並行的Mamba結構,包含多個分支,每個分支利用獨立的驅動信號來控制特定的面部區域。所有分支之間應用了一個門控機制,提供了對視頻生成的靈活控制。為了確保受控視頻在時間和空間上的自然協調,我們採用了Mamba結構,使驅動信號能夠在各個分支中跨維度操縱特徵令牌。此外,我們引入了一種掩碼丟棄策略,允許每個驅動信號在Mamba結構內獨立控制其對應的面部區域,避免控制衝突。實驗結果表明,我們的方法能夠生成由多樣信號驅動的自然面部視頻,並且Mamba層能夠無縫整合多種驅動模態而不產生衝突。
本文提出SkyReels-A2,這是一個可控的視頻生成框架,能夠根據文本提示將任意視覺元素(如角色、物體、背景)組合成合成視頻,同時嚴格保持與每個元素的參考圖像的一致性。我們將此任務稱為元素到視頻(E2V),其主要挑戰在於保持每個參考元素的保真度、確保場景的連貫構圖以及實現自然的輸出。為解決這些問題,我們首先設計了一個全面的數據管道來構建用於模型訓練的提示-參考-視頻三元組。接著,我們提出了一種新穎的圖像-文本聯合嵌入模型,將多元素表示注入生成過程,平衡元素特定的一致性與全局連貫性和文本對齊。我們還優化了推理管道,以提高速度和輸出穩定性。此外,我們引入了一個精心策劃的基準進行系統評估,即A2 Bench。實驗表明,我們的框架能夠生成多樣化、高質量的視頻,並實現精確的元素控制。SkyReels-A2是首個開源的商業級E2V生成模型,其表現優於先進的閉源商業模型。我們預計SkyReels-A2將推動戲劇和虛擬電子商務等創意應用的發展,推動可控視頻生成的邊界。
我們提出了一項具有挑戰性的任務:自動生成高層次的維基百科風格文章,這些文章需整合來自多個多樣化視頻的資訊,涵蓋自然災害或政治選舉等現實世界事件。視頻作為檢索增強生成(RAG)的直觀來源,但當代大多數RAG工作流程主要側重於文本,而現有的基於視頻的摘要方法則專注於低層次的場景理解而非高層次的事件語義。為彌補這一差距,我們引入了WikiVideo,這是一個由專家撰寫的文章和密集註釋的視頻組成的基準,這些視頻為文章的主張提供了證據,促進了視頻在RAG管道中的整合,並支持創建基於多模態來源的深入內容。我們進一步提出了協作文章生成(CAG),這是一種從多個視頻創建文章的創新互動方法。CAG利用r1風格推理模型與VideoLLM之間的迭代互動,來對目標事件進行比僅使用VideoLLM時更高層次的推斷,後者往往局限於低層次的視覺特徵。我們在oracle檢索和RAG設置下對最先進的VideoLLM和CAG進行了基準測試,發現CAG始終優於其他方法,同時為未來工作提出了引人入勝的研究方向。
強化學習(RL)近期在提升大型語言模型的推理能力方面展現出巨大潛力,並正積極擴展至視覺語言模型(VLMs)。然而,現有的RL在VLMs中的應用往往依賴於高度工程化的框架,這阻礙了可重現性和可訪問性,同時缺乏標準化的評估協議,使得結果比較或訓練動態解釋變得困難。本研究引入了一個透明、從零開始的RL框架,適用於VLMs,提供了一個簡潔但功能齊全的四步流程,並在多個模型和數據集上進行了驗證。此外,提出了一套標準化的評估方案,用於評估訓練動態和反思行為。在視覺推理任務上的大量實驗揭示了關鍵的實證發現:回應長度對隨機種子敏感,反思與輸出長度相關,且RL在泛化能力上始終優於監督微調(SFT),即使在高質量數據的情況下也是如此。這些發現,連同所提出的框架,旨在建立一個可重現的基準,並支持更廣泛地參與基於RL的VLM研究。
現有的語音語言模型(SLM)擴展分析描繪了一幅黯淡的圖景。這些分析預測,與文本相比,SLM需要更多的計算資源和數據,這使得一些人質疑訓練高質量SLM的可行性。然而,現代的SLM通常從預訓練的文本語言模型(TextLM)初始化,並通過語音-文本交織來實現知識轉移。這引發了一個問題——交織式SLM是否比無文本SLM擴展得更高效?在本文中,我們給出了肯定的回答!我們通過訓練數十個交織式SLM並分析其擴展趨勢,進行了擴展分析。我們發現,在這種設置下,SLM在計算資源上的擴展更為高效。此外,我們的結果表明,其擴展動態與無文本SLM有顯著不同,這意味著應將更多的計算預算分配給增加模型規模,而非訓練數據量。我們還研究了合成數據和TextLM模型家族在釋放這一潛力中的作用。結果表明,我們擴展後的模型在語音語義指標上與領先模型表現相當,同時使用的計算資源和數據量少於其他方法。我們開源了模型、樣本和數據——https://pages.cs.huji.ac.il/adiyoss-lab/sims。
多模态大型語言模型(MLLMs)因其龐大的規模和大量的視覺標記而面臨高昂的計算成本。本文中,我們通過引入一種新穎的度量標準——層貢獻度(Layer Contribution, LC),來研究MLLMs中的層級冗餘問題。LC量化了某一層的轉換對視覺和文本標記的影響,其計算涉及移除該層對指定標記的轉換後模型輸出的差異。我們的初步實驗表明,MLLMs的許多層在處理視覺標記時貢獻度極低。基於這一觀察,我們提出了ShortV,這是一種無需訓練的方法,利用LC來識別無效層,並在這些層中凍結視覺標記的更新。實驗結果顯示,ShortV能夠在約60%的MLLM層中凍結視覺標記,從而顯著降低與更新視覺標記相關的計算成本。例如,在LLaVA-NeXT-13B上,它實現了50%的浮點運算次數(FLOPs)減少,同時保持了優異的性能。代碼將公開於https://github.com/icip-cas/ShortV。
擴散模型在圖像任務中展現了卓越的可控性,主要通過編碼任務特定信息的噪聲預測以及實現可調節縮放的無分類器指導來實現。這種縮放機制隱含地定義了一個「縮放空間」,其對細粒度語義操作的潛力尚未得到充分探索。我們從基於反轉的編輯開始研究這一空間,其中條件/無條件噪聲預測之間的差異承載著關鍵的語義信息。我們的核心貢獻源於對噪聲預測的傅里葉分析,揭示了其低頻和高頻分量在擴散過程中以不同方式演變。基於這一洞察,我們引入了FreSca,這是一種簡單的方法,它將指導縮放獨立應用於傅里葉域中的不同頻帶。FreSca顯著增強了現有的圖像編輯方法,而無需重新訓練。令人興奮的是,其有效性還延伸至深度估計等圖像理解任務,在多個數據集上實現了定量提升。
模型選擇是時間序列預測中的關鍵步驟,傳統上需要對各種數據集進行廣泛的性能評估。元學習方法旨在自動化這一過程,但它們通常依賴於預先構建的性能矩陣,而這些矩陣的構建成本高昂。在本研究中,我們提出利用大型語言模型(LLMs)作為模型選擇的輕量級替代方案。我們的方法通過利用LLMs的內在知識和推理能力,消除了對顯式性能矩陣的需求。通過對LLaMA、GPT和Gemini進行的大量實驗,我們證明該方法優於傳統的元學習技術和啟發式基線,同時顯著降低了計算開銷。這些發現凸顯了LLMs在時間序列預測中高效模型選擇的潛力。
自基於推理的大型語言模型問世以來,許多研究已成功將推理能力蒸餾至學生模型中。此類技術顯著縮小了推理模型與標準大型語言模型在編碼任務上的差距。然而,儘管取得這些進展,關於推理模型蒸餾的許多成果仍受限於專有數據集,或缺乏數據整理、篩選及後續訓練的詳細資訊。為解決此問題,我們構建了一個優質的監督式微調(SFT)數據集,並利用其在各種規模的模型中實現了頂尖的編碼能力。我們的蒸餾模型僅使用SFT,便在LiveCodeBench上達到61.8%的成績,在CodeContests上達到24.6%,超越了使用強化學習訓練的替代方案。我們進一步分析了用於構建數據集的數據來源、代碼執行篩選的影響,以及指令/解決方案多樣性的重要性。我們觀察到,執行篩選對基準準確率產生了負面影響,這促使我們優先考慮指令多樣性而非解決方案的正確性。最後,我們還分析了這些模型所採用的詞元效率與推理模式。我們將向社區開源這些數據集與蒸餾模型。
近期大型語言模型(LLMs)的進展顯示,利用過程獎勵模型(PRMs)作為驗證器來提升LLMs的性能具有很大潛力。然而,當前的PRMs面臨三個主要挑戰:(1) 過程監督和泛化能力有限,(2) 依賴於標量值預測而未充分利用LLMs的生成能力,(3) 無法擴展PRMs在測試時的計算資源。在本研究中,我們提出了GenPRM,這是一種生成式過程獎勵模型,它在提供每個推理步驟的判斷之前,會進行顯式的思維鏈(CoT)推理並進行代碼驗證。為了獲取高質量的過程監督標籤和推理數據,我們提出了相對進度估計(RPE)以及一個結合代碼驗證的推理合成框架。在ProcessBench和幾個數學推理任務上的實驗結果表明,GenPRM僅使用MATH數據集中的23K訓練數據就顯著超越了先前的PRMs。通過測試時的規模擴展,1.5B的GenPRM超越了GPT-4o,而7B的GenPRM在ProcessBench上超越了Qwen2.5-Math-PRM-72B。此外,GenPRM展現了作為策略模型精煉的批評模型的強大能力。這項工作建立了一種新的過程監督範式,彌合了PRMs與LLMs中批評模型之間的差距。我們的代碼、模型和數據將在https://ryanliu112.github.io/GenPRM上公開。
我們首次提出了機制性的證據,證明無模型強化學習代理能夠學會規劃。這一發現是通過將基於概念的可解釋性方法應用於Sokoban(一個常用於研究規劃的基準測試)中的無模型代理來實現的。具體而言,我們展示了由Guez等人(2019年)引入的通用無模型代理DRC,利用學習到的概念表徵在內部制定計劃,這些計劃既能預測行動對環境的長期影響,又能影響行動的選擇。我們的方法包括:(1)探測與規劃相關的概念,(2)研究代理表徵中的計劃形成過程,以及(3)通過干預驗證所發現的計劃(在代理的表徵中)對代理行為具有因果影響。我們還表明,這些計劃的出現與一種類似規劃的屬性的出現相吻合:即能夠從額外的測試時間計算中受益。最後,我們對代理學習到的規劃算法進行了定性分析,並發現其與並行化雙向搜索具有強烈的相似性。我們的研究成果增進了對代理中規劃行為內部機制的理解,這在當前大型語言模型(LLMs)通過強化學習湧現出規劃和推理能力的趨勢下顯得尤為重要。
科學發現正通過先進的機器人技術和人工智慧迎來快速發展。當前的科學實踐面臨著重大限制,因為手動實驗既耗時又耗費資源,而跨學科研究則需要整合超出個別研究者專業範圍的知識。在此,我們設想了一種自主通用科學家(AGS)的概念,它結合了代理式人工智慧與具身機器人技術,以自動化整個研究生命週期。該系統能夠動態地與物理和虛擬環境互動,同時促進跨多學科知識的整合。通過在研究的各個階段——包括文獻綜述、假設生成、實驗和論文撰寫——部署這些技術,並結合內部反思與外部反饋,該系統旨在顯著減少科學發現所需的時間和資源。基於從虛擬人工智慧科學家到多功能通用人工智慧機器人科學家的演進,AGS展現了突破性的潛力。隨著這些自主系統日益融入研究過程,我們推測科學發現可能會遵循新的規模定律,這些定律可能由這些自主系統的數量和能力所塑造,從而為知識的生成與演變提供新視角。具身機器人對極端環境的適應性,加上科學知識積累的飛輪效應,有望持續突破物理與智力的邊界。
3D高斯泼溅(3DGS)展现了卓越的质量与渲染速度,但伴随着数百万个3D高斯分布以及显著的存储与传输成本。近期的3DGS压缩方法主要聚焦于压缩Scaffold-GS,虽取得了令人瞩目的性能,却引入了额外的体素结构及复杂的编码与量化策略。本文旨在开发一种名为NeuralGS的简洁而高效的方法,探索另一种途径将原始3DGS压缩为紧凑表示,无需体素结构及复杂量化策略。我们观察到,如NeRF等神经场能够利用多层感知机(MLP)神经网络仅以数兆字节表示复杂的3D场景。因此,NeuralGS有效采用神经场表示,通过MLPs编码3D高斯的属性,即便对于大规模场景也仅需极小存储空间。为实现这一目标,我们采用聚类策略,并根据高斯的重要性评分作为拟合权重,为每个聚类拟合不同的微型MLPs。我们在多个数据集上进行实验,实现了平均45倍的模型大小缩减,且未损害视觉质量。我们的方法在原始3DGS上的压缩性能与专门基于Scaffold-GS的压缩方法相当,这展示了直接利用神经场压缩原始3DGS的巨大潜力。
稀疏自編碼器(Sparse Autoencoders, SAEs)近期被證明能提升大型語言模型(Large Language Models, LLMs)的可解釋性與可控性。本研究將SAEs的應用擴展至視覺語言模型(Vision-Language Models, VLMs),如CLIP,並提出了一套全面評估視覺表徵單義性的框架。實驗結果顯示,在VLMs上訓練的SAEs顯著增強了單個神經元的單義性,同時展現出與專家定義結構(例如iNaturalist分類體系)良好對應的層次化表徵。尤為重要的是,我們證明了應用SAEs對CLIP視覺編碼器進行干預,能夠直接引導多模態LLMs(如LLaVA)的輸出,而無需對基礎模型進行任何修改。這些發現凸顯了SAEs作為一種無監督方法,在增強VLMs的可解釋性與控制力方面的實用性與有效性。
自動語音辨識系統無疑地隨著多語言與多任務模型(如Whisper)的整合而取得了進展,這些模型展現了理解和處理廣泛語言語音的潛力。儘管這些模型具有魯棒性,但在處理少數民族語言的語言特徵時往往表現不足。本研究通過將傳統與新穎的語言模型與微調後的Whisper模型相結合,來填補這一差距,從而提升其在較少研究語言中的表現。通過在多個數據集上進行嚴格的微調與評估,我們展示了在詞錯誤率上的顯著改善,特別是在低資源情境下。我們的方法不僅利用了Whisper預訓練時所依賴的大量數據,還通過整合語言模型來補充其語言適應性。使用統計語言模型時,我們在分佈內數據集上獲得了高達51%的改善,在分佈外句子中則達到了34%的提升,而大型語言模型則在多樣化的語言環境中提供了雖適中但始終穩健的改進。研究結果揭示,雖然整合對所有模型規模都有可靠的好處,但改善的程度各異,這凸顯了優化語言模型參數的重要性。最後,我們強調了在使用基於Transformer的ASR模型報告結果時,選擇合適評估參數的重要性。總之,這項研究為開發更具包容性的ASR技術鋪平了道路,這些技術通過豐富其語言知識,在跨語言表現上更為出色。有關本研究的進一步實施細節,技術文檔與源代碼可在http://www.github.com/hitz-zentroa/whisper-lm獲取。
學習根據任務描述和架構規格生成神經網絡參數,對於提升模型適應性和遷移學習能力至關重要。現有方法,尤其是基於擴散模型的方法,存在對大型架構的可擴展性有限、處理不同網絡深度時的僵化性,以及參數生成過程的割裂性,這削弱了層間的一致性。在本研究中,我們提出了IGPG(指令引導參數生成),這是一個自迴歸框架,能夠統一跨多樣任務和架構的參數合成。IGPG利用VQ-VAE和自迴歸模型,根據任務指令、數據集和架構細節生成神經網絡參數。通過自迴歸地生成神經網絡權重的token,IGPG確保了層間的一致性,並實現了跨模型和數據集的高效適應。在token層面操作,IGPG有效地捕捉了從廣泛預訓練模型中聚合而來的複雜參數分佈。在多個視覺數據集上的廣泛實驗表明,IGPG將多樣化的預訓練模型整合到一個靈活的生成框架中。相對於最先進的方法,生成的參數在性能上具有競爭力或更優,尤其是在應用於大型架構時的可擴展性和效率方面。這些結果凸顯了IGPG作為預訓練權重檢索、模型選擇和快速任務特定微調的強大工具的潛力。
無監督全景分割旨在無需依賴人工標註數據進行訓練的情況下,將圖像劃分為語義上有意義的區域和獨立的物體實例。與先前關於無監督全景場景理解的研究不同,我們消除了對以物體為中心的訓練數據的需求,從而實現了對複雜場景的無監督理解。為此,我們提出了首個直接在場景中心圖像上進行訓練的無監督全景方法。具體而言,我們提出了一種方法,通過結合視覺表徵、深度和運動線索,在複雜的場景中心數據上獲取高分辨率的全景偽標籤。利用偽標籤訓練和全景自訓練策略,我們開發了一種新穎的方法,能夠準確預測複雜場景的全景分割,而無需任何人工標註。我們的方法顯著提升了全景質量,例如,在Cityscapes數據集上的無監督全景分割任務中,以9.4%的PQ(全景質量)分數超越了最新的技術水平。