每日精選AI研究論文及翻譯
推理時的最佳化透過擴展計算來推導出深思熟慮的推理步驟,以實現高效能。雖然先前的基於搜索的策略解決了自回歸生成的短視問題,但龐大的搜索空間導致過度探索和不足的利用。為了在推導最佳步驟時達到高效的平衡,我們將解碼策略框架化為前瞻採樣,利用模擬的未來步驟來獲得全局最優的步驟估計。基於此,我們提出了一種名為phi-Decoding的新穎解碼策略。為了提供精確且具表現力的步驟價值估計,phi-Decoding透過前瞻和聚類來近似兩個分佈。從聯合分佈中採樣,可以選擇最佳步驟進行利用。為了支持自適應的計算分配,我們提出了寬度和深度的剪枝策略,提供了一種輕量級解決方案以實現推理效率。在七個基準測試上的廣泛實驗表明,phi-Decoding在效能和效率上均優於強基線。額外的分析展示了其在各種大型語言模型上的泛化能力以及在廣泛計算預算範圍內的可擴展性。程式碼將發佈於https://github.com/xufangzhi/phi-Decoding,開源的PyPI套件即將推出。
儘管近期圖像-文本對比模型如CLIP和SigLIP取得了成功,這些模型在處理需要高保真圖像理解的視覺中心任務時,如計數、深度估計和細粒度物體識別,往往表現欠佳。這些模型通過執行語言對齊,傾向於優先考慮高層次語義而非視覺理解,從而削弱了其圖像理解能力。另一方面,專注於視覺的模型擅長處理視覺信息,但在理解語言方面存在困難,這限制了它們在語言驅動任務中的靈活性。在本研究中,我們引入了TULIP,一個開源的、可直接替換現有CLIP類模型的方案。我們的方法利用生成式數據增強、增強的圖像-圖像和文本-文本對比學習,以及圖像/文本重建正則化,來學習細粒度的視覺特徵,同時保持全局語義對齊。我們的方案,參數量超過10億,在多個基準測試中超越了現有的最先進(SOTA)模型,在ImageNet-1K上建立了新的SOTA零樣本性能,在RxRx1的少樣本分類線性探測中相比SigLIP提升了最多2倍,並改進了視覺-語言模型,在MMVP上得分超過SigLIP的3倍。我們的代碼/檢查點可在https://tulip-berkeley.github.io獲取。
三角網格在3D應用中扮演著至關重要的角色,用於高效的操作與渲染。雖然自回歸方法通過預測離散的頂點標記來生成結構化網格,但它們往往受限於有限的面數和網格的不完整性。為應對這些挑戰,我們提出了DeepMesh框架,該框架通過兩項關鍵創新來優化網格生成:(1) 一種高效的預訓練策略,結合了新型的標記化算法,並在數據整理與處理方面進行了改進;(2) 將強化學習(RL)引入3D網格生成,通過直接偏好優化(DPO)實現與人類偏好的對齊。我們設計了一個結合人類評估與3D指標的評分標準,以收集用於DPO的偏好對,確保視覺吸引力和幾何精確性。基於點雲和圖像的條件下,DeepMesh生成的網格具有精細的細節和精確的拓撲結構,在精度和質量上均超越了現有的最先進方法。項目頁面:https://zhaorw02.github.io/DeepMesh/
基於海量數據訓練的基礎模型在文本、圖像、音頻和視頻領域展現了卓越的推理與生成能力。在Roblox,我們的目標是構建一個面向3D智能的基礎模型,該模型能夠支持開發者創建Roblox體驗的各個方面,從生成3D物體和場景,到為動畫角色進行綁定,再到生成描述物體行為的程序腳本。我們討論了此類3D基礎模型的三個關鍵設計需求,並展示了我們在構建此模型過程中的第一步。我們預計3D幾何形狀將成為核心數據類型,並介紹了我們針對3D形狀分詞器的解決方案。我們展示了如何將此分詞方案應用於文本到形狀生成、形狀到文本生成以及文本到場景生成的應用中。我們還演示了這些應用如何與現有的大型語言模型(LLMs)協作,進行場景分析與推理。最後,我們概述了構建一個完全統一的3D智能基礎模型的路徑。
構建廣義知識圖譜(Generalized Knowledge Graph, GKG),包括知識圖譜、事件知識圖譜和常識知識圖譜,是各類自然語言處理任務的基礎。當前研究通常分別構建這些圖譜,忽視了整體視角以及可能在計算資源和使用角度上帶來益處的潛在統一性。然而,開發統一框架以構建GKG的一個關鍵挑戰在於任務特定差異所帶來的障礙。在本研究中,我們提出了一個統一框架來構建廣義知識圖譜,以應對這一挑戰。首先,我們從三種類型圖譜的29個數據集中收集了15個子任務的數據,並將其分類為樣本內數據、對抗任務數據和分佈外(Out-of-Distribution, OOD)數據。接著,我們提出了一個三階段課程學習微調框架,通過迭代地將三種類型圖譜的知識注入大型語言模型中。大量實驗表明,我們提出的模型在域內、OOD和對抗任務數據上均提升了所有三種圖譜的構建效果。
時間質量是視頻生成中的關鍵因素,它確保了幀間一致的運動和逼真的動態效果。然而,實現高時間一致性和多樣性仍然具有挑戰性。在本研究中,我們首次探索了視頻生成中的時間增強技術,並引入了FluxFlow進行初步研究,這是一種旨在提升時間質量的策略。FluxFlow在數據層面操作,通過施加受控的時間擾動,無需修改模型架構。在UCF-101和VBench基準上的大量實驗表明,FluxFlow顯著提升了包括U-Net、DiT和基於自回歸架構在內的各種視頻生成模型的時間一致性和多樣性,同時保持了空間保真度。這些發現凸顯了時間增強作為一種簡單而有效的方法,在提升視頻生成質量方面的潛力。
生成技術的快速發展已成為一把雙刃劍。在提供強大工具以提升便利性的同時,也引發了重大的社會擔憂。作為防禦手段,當前的合成圖像檢測方法往往缺乏基於偽影的文本可解釋性,且過於專注於圖像篡改檢測,而現有的數據集通常存在生成器過時和缺乏細粒度註釋的問題。本文介紹了SynthScars,這是一個高質量且多樣化的數據集,包含12,236張完全合成的圖像,並配有人類專家的註釋。該數據集涵蓋4種不同的圖像內容類型、3類偽影,以及包括像素級分割、詳細文本解釋和偽影類別標籤在內的細粒度註釋。此外,我們提出了LEGION(基於多模態大語言模型的圖像偽造分析框架),它整合了偽影檢測、分割和解釋功能。基於這一能力,我們進一步探索了LEGION作為控制器的應用,將其集成到圖像精煉管道中,以指導生成更高質量、更逼真的圖像。大量實驗表明,LEGION在多個基準測試中均優於現有方法,特別是在SynthScars數據集上,其mIoU和F1分數分別比第二好的傳統專家高出3.31%和7.75%。此外,在其指導下生成的精煉圖像與人類偏好表現出更強的契合度。代碼、模型和數據集將被公開。
大型語言模型(LLMs)在解決數學推理任務方面展現了顯著的潛力,其中思維鏈(Chain-of-Thought, CoT)數據作為引導答案生成的關鍵要素。現有範式通常直接為給定問題生成CoT和答案,這在某種程度上偏離了人類解決問題的策略。人類在解決問題時,往往會回憶起類似的案例,並利用其解決方案來推理當前任務。受這一認知過程的啟發,我們提出了MetaLadder,這是一個新穎的框架,它明確提示LLMs在處理目標問題之前,回憶並反思那些在結構或語義上相似的元問題及其CoT解決方案。此外,我們引入了一種問題重述機制,通過重新生成原始問題來增強模型對目標問題的理解,從而進一步提高推理的準確性。因此,模型能夠實現從類比問題中的推理轉移,模仿人類“從例子中學習”和泛化的能力。在數學基準上的大量實驗表明,我們的MetaLadder顯著提升了LLMs解決問題的準確性,大幅超越了基於標準CoT的方法(10.3%的準確率提升)及其他方法。我們的代碼和數據已發佈於https://github.com/LHL3341/MetaLadder。
視覺推理是人類認知的核心,使個體能夠解釋並抽象地理解其環境。儘管近期的多模態大型語言模型(MLLMs)在語言和視覺-語言任務中展現了令人印象深刻的表現,現有的基準測試主要衡量基於識別的技能,未能充分評估真正的視覺推理能力。為彌補這一關鍵差距,我們引入了VERIFY,這是一個專門設計來隔離並嚴格評估最先進MLLMs視覺推理能力的基準測試。VERIFY迫使模型主要從視覺信息進行推理,提供最少的文本上下文,以減少對領域特定知識和語言偏見的依賴。每個問題都伴隨著人工註釋的推理路徑,使其成為首個深入評估模型決策過程的基準。此外,我們提出了新穎的指標,這些指標超越了單純的準確性,評估視覺推理的真實性,突顯了當前模型推理模式中的關鍵不平衡。我們對領先MLLMs的全面基準測試揭示了顯著的局限性,強調了在感知和推理方面需要採取平衡且全面的方法。欲了解更多預覽和測試,請訪問我們的項目頁面(https://verify-eqh.pages.dev/)。
擴散模型在圖像合成方面展現了卓越的性能,但其訓練、微調和推理過程需要消耗大量的計算和記憶體資源。儘管先進的量化技術已成功降低了推理時的記憶體使用,但訓練和微調這些量化模型仍需要大量記憶體,這可能是由於為了精確計算梯度而進行的反量化操作,以及基於梯度的算法中的反向傳播過程。然而,對於如個性化等應用場景,記憶體高效的微調尤為重要,因為這些應用通常需要在邊緣設備(如手機)上運行,並處理私人數據。在本研究中,我們通過量化結合Textual Inversion技術的擴散模型,並利用零階優化對個性化標記進行操作,避免了反量化,從而無需存儲用於反向傳播的梯度和激活值,大幅減少了記憶體消耗。考慮到零階優化在個性化場景下對單張或少數圖像的梯度估計存在較大噪聲,我們提出了一種降噪方法,即通過將估計的梯度投影到由標記歷史構建的子空間上,稱之為子空間梯度。此外,我們研究了文本嵌入在圖像生成中的影響,進而提出了部分均勻時間步採樣(Partial Uniform Timestep Sampling),用於在有效的擴散時間步上進行採樣。我們的方法在僅使用前向傳播的情況下,實現了與先前方法相當的圖像和文本對齊分數,同時將訓練記憶體需求降低了最多8.2倍。
当前关于“分解-验证”范式用于评估长文本事实性的研究,通常将分解与验证孤立对待,忽视了它们之间的相互作用及潜在的不一致性。我们发现,现有的分解策略(通常为手工设计的示例)在原子性(一种量化信息密度的新指标)方面与下游验证器并不匹配,导致验证结果欠佳。我们将寻找最优分解策略以实现最优验证的问题形式化为一个双层优化问题。为了近似求解这一强NP难问题,我们提出了动态分解方法,这是一个强化学习框架,利用验证器的反馈来学习一种策略,动态地将声明分解为验证器偏好的原子性。实验结果表明,动态分解方法优于现有的分解策略,在不同验证器、数据集及输入声明原子性的情况下,平均将验证置信度提高了0.07,准确率提升了0.12(基于0-1评分标准)。
開發能夠自主操作圖形用戶界面的AI代理是一項長期且具挑戰性的任務。數據規模定律的最新進展啟發我們使用擴展的指令集來訓練計算機使用代理,然而,使用行為克隆來訓練代理仍然需要大量高質量的軌跡數據。為滿足可擴展性需求,我們設計了STEVE,這是一個用於計算機使用代理訓練的步驟驗證管道。首先,我們為計算機使用代理建立了一個大型指令集,並使用一些次優代理收集軌跡數據。GPT-4o被用來根據動作執行前後的屏幕來驗證軌跡中每個步驟的正確性,並為每個步驟分配一個二元標籤。最後,我們採用卡尼曼和特沃斯基優化法,從二元步驟標籤中優化代理。大量實驗表明,我們的代理通過利用軌跡中的正向和負向動作,超越了監督微調的性能。此外,STEVE使我們能夠將一個7B的視覺語言模型訓練為計算機使用代理,在具有挑戰性的實時桌面環境WinAgentArena中實現了領先的性能,並以更低的成本實現了高效運行。代碼和數據:https://github.com/FanbinLu/STEVE。
大型語言模型(LLM)代理在現實世界任務中需要進行多輪互動。然而,現有的用於優化LLM代理的多輪強化學習(RL)算法無法在多輪互動中進行有效的信用分配,同時充分利用LLM的泛化能力,且如何開發此類算法仍不明確。為研究此問題,我們首先引入了一個新的基準測試ColBench,其中LLM代理與人類協作者在多輪互動中共同解決後端編程和前端設計中的實際任務。基於此基準測試,我們提出了一種新穎的RL算法SWEET-RL(利用訓練時信息進行逐步評估的強化學習),該算法使用精心設計的優化目標來訓練一個能夠訪問額外訓練時信息的評論模型。該評論模型為改進策略模型提供逐步獎勵。我們的實驗表明,與其他最先進的多輪RL算法相比,SWEET-RL在ColBench上的成功率和勝率絕對提升了6%,使Llama-3.1-8B在實際協作內容創作中的表現能夠匹配或超越GPT4-o。
近期在大型語言模型(LLM)預訓練方面的進展,特徵在於不斷擴展的上下文窗口以處理更長的序列。然而,我們的初步研究顯示,在固定的token預算下,使用較短上下文窗口預訓練的模型始終優於其長上下文對應模型。這一發現促使我們探索一種最佳的上下文窗口調度策略,以更好地平衡長上下文能力與預訓練效率。為此,我們提出了SkyLadder,這是一種簡單而有效的方法,實現了從短到長上下文窗口的過渡。SkyLadder在保持強勁的標準基準性能的同時,在長上下文任務上匹配或超越了基線結果。通過大量實驗,我們在100B tokens上預訓練了1B參數模型(最高32K上下文)和3B參數模型(8K上下文),證明SkyLadder在常見基準上帶來了一致的高達3.7%的性能提升,同時相比基線實現了高達22%的訓練速度提升。代碼位於https://github.com/sail-sg/SkyLadder。
我們介紹了MusicInfuser,這是一種生成與指定音樂軌道同步的高質量舞蹈視頻的方法。我們並未嘗試設計和訓練新的多模態音視頻模型,而是展示了如何通過引入輕量級的音樂-視頻交叉注意力機制和低秩適配器,使現有的視頻擴散模型能夠與音樂輸入對齊。與先前需要動作捕捉數據的工作不同,我們的方法僅在舞蹈視頻上進行微調。MusicInfuser在保持底層模型靈活性和生成能力的同時,實現了高質量的音樂驅動視頻生成。我們引入了一個使用視頻-LLM的評估框架,以評估舞蹈生成質量的多個維度。項目頁面和代碼可在https://susunghong.github.io/MusicInfuser獲取。
三維場景的分解重建,包含所有物體的完整形狀和細緻紋理,對於下游應用極具吸引力,但在稀疏視角輸入的情況下仍面臨挑戰。現有方法通過引入語義或幾何正則化來解決這一問題,但在約束不足的區域會出現顯著退化,且無法恢復被遮擋的區域。我們認為,解決這一問題的關鍵在於為這些區域補充缺失的信息。為此,我們提出了DP-Recon,該方法利用擴散先驗,以分數蒸餾採樣(SDS)的形式,在新視角下優化每個單獨物體的神經表示。這為約束不足的區域提供了額外信息,但直接引入擴散先驗可能會導致重建與生成指導之間的潛在衝突。因此,我們進一步引入了一種基於可見性的方法,動態調整每個像素的SDS損失權重。這些組件共同增強了幾何和外觀的恢復,同時忠實於輸入圖像。在Replica和ScanNet++上的大量實驗表明,我們的方法顯著優於現有的SOTA方法。值得注意的是,在10個視角下,我們的物體重建效果優於基線方法在100個視角下的表現。我們的方法通過SDS優化實現了基於文本的幾何和外觀無縫編輯,並生成了帶有詳細UV貼圖的分解物體網格,支持照片級真實感的視覺特效(VFX)編輯。項目頁面可在https://dp-recon.github.io/ 訪問。
近期大型多模态模型(LMMs)的进展主要集中在离线视频理解上。相比之下,流媒体视频理解因其时效性、全模态和交互性特征,对现有模型提出了巨大挑战。本研究旨在从新视角扩展流媒体视频理解,并提出了一项名为视觉指令反馈的新任务,要求模型能够感知视觉内容并从中提取指令。例如,当用户向代理挥手时,代理应识别该手势并启动对话,提供欢迎信息。因此,遵循视觉模态中的指令极大地增强了用户与代理的互动。为促进研究,我们定义了七个与视觉模态高度相关的关键子任务,并收集了用于训练的ViSpeak-Instruct数据集和用于评估的ViSpeak-Bench。此外,我们提出了ViSpeak模型,这是一个在多种流媒体视频理解基准测试中达到GPT-4o级别性能的SOTA流媒体视频理解LMM。在ViSpeak-Instruct数据集上微调后,ViSpeak具备了基本的视觉指令反馈能力,为未来研究奠定了坚实的基础。
自動化特徵工程在提升表格學習任務的預測模型性能中扮演著關鍵角色。傳統的自動化特徵工程方法受限於其依賴於預先定義的轉換操作,這些操作被限制在固定且手動設計的搜索空間內,往往忽視了領域知識。近期,利用大型語言模型(LLMs)的進展使得將領域知識整合到特徵工程過程中成為可能。然而,現有的基於LLM的方法要麼使用直接提示,要麼僅依賴驗證分數進行特徵選擇,未能充分利用先前特徵發現實驗的洞察,也未能建立特徵生成與數據驅動性能之間的有意義推理。為解決這些挑戰,我們提出了LLM-FE,這是一個新穎的框架,它結合了進化搜索與LLMs的領域知識和推理能力,以自動發現適用於表格學習任務的有效特徵。LLM-FE將特徵工程表述為一個程序搜索問題,其中LLMs迭代地提出新的特徵轉換程序,而數據驅動的反饋則引導搜索過程。我們的結果表明,LLM-FE在多樣化的分類和迴歸基準測試中,持續超越最先進的基線方法,顯著提升了表格預測模型的性能。
音頻驅動的單圖像說話肖像生成在虛擬現實、數字人創建和電影製作中扮演著至關重要的角色。現有方法通常分為基於關鍵點和基於圖像的方法。基於關鍵點的方法能有效保留角色身份,但由於3D可變形模型的固定點限制,難以捕捉細微的面部細節。此外,傳統生成網絡在有限的數據集上建立音頻與關鍵點之間的因果關係面臨挑戰,導致姿態多樣性較低。相比之下,基於圖像的方法利用擴散網絡生成高質量且細節豐富的肖像,但存在身份失真和計算成本高昂的問題。在本研究中,我們提出了KDTalker,這是首個結合無監督隱式3D關鍵點與時空擴散模型的框架。通過利用無監督隱式3D關鍵點,KDTalker適應面部信息密度,使擴散過程能夠靈活地建模多樣的頭部姿態並捕捉細微的面部細節。定制的時空注意力機制確保了精確的唇形同步,生成時間一致的高質量動畫,同時提高了計算效率。實驗結果表明,KDTalker在唇形同步精度、頭部姿態多樣性和執行效率方面達到了最先進的性能。我們的代碼可在https://github.com/chaolongy/KDTalker獲取。
我們提出ELTEX(高效大型語言模型詞元提取),這是一個針對特定領域生成高質量合成訓練數據的領域驅動框架。儘管大型語言模型(LLMs)展現了令人印象深刻的通用能力,但在如網絡安全等專業領域中,其性能仍受限於領域特定訓練數據的稀缺性。ELTEX通過系統性地整合顯式領域指示符提取與動態提示,在整個生成過程中保留關鍵領域知識,從而應對這一挑戰。我們在區塊鏈相關網絡攻擊檢測的背景下展示了ELTEX的有效性,其中我們使用真實數據與ELTEX生成數據的不同組合對Gemma-2B進行微調。結果顯示,ELTEX增強後的模型在標準分類指標和不確定性校準方面均達到了與GPT-4相當的性能,同時所需計算資源顯著減少。我們發布了一個精選的合成數據集,包含用於區塊鏈網絡攻擊檢測的社交媒體文本。我們的工作表明,領域驅動的合成數據生成能夠有效彌合資源高效模型與大型架構在專業領域中的性能差距。
近期大型語言模型(LLMs)的進展展現了其推理能力的提升,從思維鏈(CoT)提示法演進至如OpenAI o1這樣先進、產品導向的解決方案。在我們重新實現該模型的過程中,我們注意到在需要視覺輸入的多模態任務(例如幾何問題)中,多模態大型語言模型(MLLMs)難以持續關注視覺信息,換言之,隨著推理的進行,MLLMs對視覺信息的注意力逐漸下降,導致輸出過度依賴文本。為探究此現象,我們在長鏈推理過程中對圖像輸入進行了消融實驗。具體而言,我們在推理中途截斷過程,然後移除輸入圖像重新完成推理。我們觀察到在MathVista的測試難題子集上僅有約2%的準確率下降,這揭示了模型的文本輸出主導了後續的推理過程。基於此發現,我們提出了「隨行視覺條件化」(Take-along Visual Conditioning, TVC)策略,該策略將圖像輸入轉移至關鍵推理階段,並通過動態剪枝壓縮冗餘的視覺標記。此方法有助於模型在整個推理過程中保持對視覺組件的注意力。我們的方法在五個數學推理基準測試上平均達到了最先進的性能(相較於之前的最佳成績提升了3.4%),證明了TVC在增強多模態推理系統方面的有效性。
科學問題解決涉及在應用專家知識的同時綜合信息。我們引入了CURIE,一個科學長上下文理解、推理與信息提取的基準測試,旨在衡量大型語言模型(LLMs)在科學問題解決及協助科學家進行現實工作流程中的潛力。該基準測試涵蓋了六個學科——材料科學、凝聚態物理、量子計算、地理空間分析、生物多樣性及蛋白質——共計580個由專家精心挑選的問題與解決方案對,覆蓋了科學中的實驗與理論工作流程。我們評估了一系列封閉與開放的LLMs在CURIE任務上的表現,這些任務要求具備領域專業知識、對長上下文信息的理解以及多步推理能力。儘管Gemini Flash 2.0和Claude-3在各領域展現出持續的高理解力,但廣受歡迎的GPT-4o和command-R+在蛋白質測序任務上表現卻大幅落後。所有模型的最佳表現僅為32%,表明仍有很大的改進空間。我們希望從CURIE中獲得的見解能引導LLMs在科學領域的未來發展。評估代碼與數據可在https://github.com/google/curie獲取。
在複雜的多智能體環境中,實現高效的學習和理想的行為對於多智能體強化學習(MARL)系統而言是一項重大挑戰。本研究探討了將MARL與大型語言模型(LLM)介導的干預相結合,以引導智能體朝向更理想行為的潛力。具體而言,我們研究了如何利用LLM來解釋和促進干預,從而塑造多個智能體的學習軌跡。我們實驗了兩種干預類型,分別稱為控制器:自然語言(NL)控制器和基於規則(RB)控制器。其中,使用LLM模擬人類干預的NL控制器展現出比RB控制器更強的影響力。我們的發現表明,智能體特別受益於早期干預,這能帶來更高效的訓練和更高的性能。兩種干預類型均優於無干預的基線,突顯了LLM介導的指導在加速訓練和提升MARL在挑戰性環境中性能的潛力。