每日精選AI研究論文及翻譯
擴散語言模型相較於自回歸模型具有獨特優勢,因其具備並行生成與可控性的潛力,然而在概率建模方面表現稍遜,且僅限於固定長度的生成。本研究引入了一類塊擴散語言模型,該模型在離散去噪擴散與自回歸模型之間進行了折衷。塊擴散通過支持靈活長度生成,並利用KV緩存與並行令牌採樣提升推理效率,克服了兩種方法的關鍵限制。我們提出了一套構建高效塊擴散模型的方案,包括高效的訓練算法、梯度方差估計器,以及數據驅動的噪聲調度以最小化方差。塊擴散在語言建模基準測試中為擴散模型樹立了新的性能標杆,並實現了任意長度序列的生成。我們在項目頁面提供了代碼、模型權重及博客文章:https://m-arriola.com/bd3lms/。
視頻擴散模型的發展揭示了一個重大挑戰:巨大的計算需求。為緩解這一挑戰,我們注意到擴散的反向過程具有固有的熵減特性。考慮到視頻模態中的幀間冗餘,在高熵階段維持全幀率是不必要的。基於這一洞察,我們提出了TPDiff,一個提升訓練和推理效率的統一框架。通過將擴散過程劃分為多個階段,我們的框架在擴散過程中逐步增加幀率,僅在最後階段以全幀率運行,從而優化計算效率。為了訓練多階段擴散模型,我們引入了一種專用的訓練框架:分階段擴散。通過在對齊的數據和噪聲下求解擴散的劃分概率流常微分方程(ODE),我們的訓練策略適用於各種擴散形式,並進一步提升了訓練效率。全面的實驗評估驗證了我們方法的通用性,展示了訓練成本降低50%和推理效率提升1.5倍的顯著效果。
條件式動作生成在電腦視覺領域已被廣泛研究,然而仍存在兩大關鍵挑戰。首先,儘管遮罩自回歸方法近期表現優於基於擴散的技術,現有的遮罩模型缺乏根據給定條件來優先處理動態幀和身體部位的機制。其次,現有針對不同條件模式的方法往往無法有效整合多種模式,限制了生成動作的控制性和連貫性。為解決這些挑戰,我們提出了Motion Anything,這是一個多模態動作生成框架,引入了基於注意力的遮罩建模方法,實現了對關鍵幀和動作的精細化時空控制。我們的模型能自適應地編碼包括文本和音樂在內的多模態條件,提升了可控性。此外,我們還推出了Text-Music-Dance (TMD),這是一個包含2,153組文本、音樂和舞蹈配對的新動作數據集,其規模是AIST++的兩倍,填補了該領域的重要空白。大量實驗表明,Motion Anything在多個基準測試中超越了現有最先進的方法,在HumanML3D上FID提升了15%,並在AIST++和TMD上展現了持續的性能提升。詳情請訪問我們的項目網站:https://steve-zeyu-zhang.github.io/MotionAnything。
我們介紹了Reangle-A-Video,這是一個從單一輸入視頻生成同步多視角視頻的統一框架。與主流方法不同,後者通常在大規模4D數據集上訓練多視角視頻擴散模型,我們的方法將多視角視頻生成任務重新定義為視頻到視頻的轉換,利用公開可用的圖像和視頻擴散先驗。本質上,Reangle-A-Video分兩個階段運作。(1) 多視角運動學習:以自監督的方式同步微調一個圖像到視頻的擴散變壓器,從一組扭曲的視頻中提取視角不變的運動。(2) 多視角一致的圖像到圖像轉換:在推理時使用DUSt3R進行跨視角一致性指導,將輸入視頻的第一幀扭曲並修補成不同的攝像機視角,生成多視角一致的起始圖像。在靜態視角傳輸和動態攝像機控制上的大量實驗表明,Reangle-A-Video超越了現有方法,為多視角視頻生成提供了一種新的解決方案。我們將公開我們的代碼和數據。項目頁面:https://hyeonho99.github.io/reangle-a-video/
高效獲取外部知識與最新資訊,對於大型語言模型(LLMs)進行有效推理與文本生成至關重要。檢索增強與工具使用訓練方法,如將搜尋引擎視為工具,往往缺乏複雜的多輪檢索靈活性,或需要大規模的監督數據。在推理過程中提示具備推理能力的高級LLMs使用搜尋引擎並非最佳方案,因為LLM並未學會如何與搜尋引擎進行最佳互動。本文介紹了Search-R1,作為DeepSeek-R1模型的擴展,其中LLM僅通過強化學習(RL)自主生成(多個)搜尋查詢,在逐步推理過程中實現實時檢索。Search-R1通過多輪搜尋互動優化LLM的展開,利用檢索到的令牌遮罩來穩定RL訓練,並採用基於結果的簡單獎勵函數。在七個問答數據集上的實驗表明,Search-R1相較於最先進的基線模型,性能提升了26%(Qwen2.5-7B)、21%(Qwen2.5-3B)和10%(LLaMA3.2-3B)。本文進一步提供了關於RL優化方法、LLM選擇及檢索增強推理中回應長度動態的實證洞察。代碼與模型檢查點可在https://github.com/PeterGriffinJin/Search-R1獲取。
基於可驗證結果獎勵的強化學習(RLVR)已有效擴展了大語言模型(LLMs)中的思維鏈(CoT)推理能力。然而,其在訓練視覺語言模型(VLM)代理於視覺環境中進行目標導向行動推理的效果尚不明確。本研究通過在複雜紙牌遊戲(如24點)及ALFWorld中的具身任務上進行廣泛實驗,探討了這一問題。我們發現,當獎勵僅基於行動結果時,RL無法激勵VLMs中的CoT推理,反而導致了一種我們稱之為“思維崩潰”的現象,其特徵是代理思維多樣性的迅速喪失、與狀態無關且不完整的推理,以及隨後的無效行動,最終導致負面獎勵。為應對思維崩潰,我們強調了過程指導的必要性,並提出了一種自動校正器,在每個RL步驟中評估並精煉代理的推理。這一簡單且可擴展的GTR(引導思維強化)框架無需密集的逐步人工標註,即可同步訓練推理與行動。我們的實驗表明,GTR顯著提升了LLaVA-7b模型在各種視覺環境中的表現與泛化能力,相比於模型規模顯著更小的現有最佳模型,任務成功率提高了3至5倍。
檢索增強生成(RAG)為大型語言模型(LLMs)提供了相關文檔。儘管先前的研究指出,檢索過多文檔可能會降低性能,但這些研究並未在控制上下文長度的情況下,單獨探討文檔數量如何影響性能。我們在多跳問答任務的基礎上,使用自定義數據集評估了多種語言模型。在保持上下文長度和相關信息位置不變的同時,我們改變了文檔的數量,發現增加RAG設置中的文檔數量對LLMs構成了顯著挑戰。此外,我們的結果表明,處理多個文檔與處理長上下文是兩個不同的挑戰。我們還公開了數據集和代碼:https://github.com/shaharl6000/MoreDocsSameLen。
分數蒸餾採樣(Score Distillation Sampling, SDS)已成為一種有效技術,用於利用二維擴散先驗來完成諸如文本到三維生成等任務。儘管功能強大,SDS在實現與用戶意圖的精細對齊方面仍存在困難。為克服這一挑戰,我們提出了RewardSDS,這是一種新穎的方法,它根據獎勵模型的對齊分數對噪聲樣本進行加權,從而產生加權的SDS損失。這種損失優先考慮那些能產生對齊且高獎勵輸出的噪聲樣本的梯度。我們的方法具有廣泛的適用性,並能擴展基於SDS的方法。特別是,我們通過引入RewardVSD展示了其在變分分數蒸餾(Variational Score Distillation, VSD)中的應用。我們在文本到圖像、二維編輯以及文本到三維生成任務上評估了RewardSDS和RewardVSD,結果顯示在衡量生成質量及與期望獎勵模型對齊的多樣化指標上,相較於SDS和VSD均有顯著提升,實現了最先進的性能。項目頁面可訪問:https://itaychachy.github.io/reward-sds/。
儘管大型語言模型(LLMs)在各項任務中展現了卓越的性能,它們仍易於出錯。一個關鍵挑戰在於如何使其具備自我修正的能力。先前的研究多依賴外部工具或大型專有模型,而本研究則探索了小型語言模型(SLMs)通過僅使用自生成數據進行迭代微調來實現自我修正。我們提出了自學自修正(Self-Taught Self-Correction, STaSC)算法,該算法融合了多種算法設計選擇。在問答任務上的實驗結果表明,STaSC能有效學習自我修正,從而顯著提升性能。我們的分析進一步揭示了自我修正的機制,以及不同設計選擇對學習動態和整體性能的影響。為支持未來研究,我們開源了易於使用的代碼庫和輕量級模型。
近期的大型語言模型(LLMs)在遵循用戶指令方面展現了顯著的成功,然而處理具有多重約束的指令仍然是一個重大挑戰。在本研究中,我們引入了WildIFEval——一個包含12,000條真實用戶指令的大規模數據集,這些指令涵蓋了多樣化、多約束的條件。與以往數據集不同,我們的收集範圍廣泛,涵蓋了自然用戶提示中廣泛的詞彙和主題約束。我們將這些約束分類為八個高層次類別,以捕捉其在真實場景中的分佈和動態。利用WildIFEval,我們進行了廣泛的實驗,以基準測試領先LLMs的指令遵循能力。我們的研究結果顯示,所有評估的模型在約束數量增加時都經歷了性能下降。因此,我們表明所有模型在此類任務上仍有很大的改進空間。此外,我們觀察到特定類型的約束在模型性能中扮演著關鍵角色。我們公開了我們的數據集,以促進在複雜、現實條件下指令遵循的進一步研究。
人類日常活動可以簡潔地描述為視頻流中的一系列常規事件(例如,關閉鬧鐘),從而形成一個事件詞彙表。基於此,我們引入了VLog,這是一種新穎的視頻理解框架,它將視頻敘述定義為詞彙,超越了現有生成式視頻-語言模型中典型的子詞詞彙。VLog建立在輕量級語言模型GPT-2之上,具有三個關鍵創新:(i) 一個生成式檢索模型,將語言模型的複雜推理能力與對比檢索的高效相似性搜索相結合。(ii) 一個從大規模視頻敘述中通過我們的敘述對編碼算法導出的分層詞彙表,能夠通過識別更廣泛的場景(例如,廚房)並使用表達性後綴(例如,用左手)來高效索引特定事件(例如,切番茄)。(iii) 一種利用生成模型擴展詞彙表的策略,以應對推理過程中遇到的新事件。為了驗證我們的方法,我們引入了VidCap-Eval,這是一個需要簡潔敘述並包含推理關係(例如,之前和之後)的開發集。在EgoSchema、COIN和HiREST上的實驗進一步證明了VLog的有效性,突顯了其生成簡潔、上下文準確且高效的敘述的能力,為視頻理解提供了新的視角。代碼已發佈於https://github.com/showlab/VLog。
大型語言模型(LLMs)在代碼生成方面展現了令人印象深刻的能力,尤其是在自動實現自然語言描述的需求方面。LLM的效果通常隨著其規模的增大而提升:可訓練參數數量越多,其實現代碼的能力越強。然而,當涉及到部署基於LLM的代碼生成器時,更大的LLM會帶來與其記憶體(以及隨之而來的碳)足跡相關的重大挑戰。Wei等人先前的工作提出利用量化技術來減少基於LLM的代碼生成器的記憶體佔用,而不顯著降低其效果。簡而言之,他們研究了具有高達160億參數的LLM,將其精度從32位浮點數量化至8位整數,並展示了這對代碼生成性能的有限影響。考慮到LLM能力和量化技術的快速發展,在本研究中,我們對Wei等人的工作進行了差異化複製,其中我們考慮了:(i) 一方面,更新且更大的與代碼相關的LLM,參數高達340億;(ii) 模型量化技術的最新進展,允許將壓縮推向每個模型參數2位的極端量化水平;以及(iii) 不同類型的校準數據集來指導量化過程,包括特定於代碼的數據集。我們的實證評估揭示,LLM量化的新前沿是4位精度,與原始模型相比,平均記憶體佔用減少了70%,且未觀察到性能的顯著下降。此外,當量化變得更為極端(3位和2位)時,特定於代碼的校準數據集有助於限制性能的損失。
生成學習模型的圖像到圖像轉換能力最近在估計圖像分佈之間的複雜(定向)映射方面取得了顯著進展。雖然基於外觀的任務,如圖像修復或風格轉移,已被深入研究,但我們提議探索生成模型在物理模擬背景下的潛力。通過提供一個包含30萬張圖像對的數據集以及針對三種不同物理模擬任務的基準評估,我們提出了一個基準來探討以下研究問題:i) 生成模型能否從輸入-輸出圖像對中學習複雜的物理關係?ii) 通過替代基於微分方程的模擬,可以實現多大的加速?雖然當前不同模型的基準評估顯示了實現高加速的潛力(ii),但這些結果也顯示出在物理正確性方面的強烈限制(i)。這強調了需要新方法來確保物理正確性。數據、基準模型和評估代碼請訪問http://www.physics-gen.org。
高效理解大規模遙感圖像(RSIs)的視覺語言具有重要意義但極具挑戰性。當前的大型視覺語言模型(LVLMs)通常採用有限的預定義網格來處理圖像,這在處理千兆像素級RSIs時會導致信息丟失。相反,使用無限網格則會顯著增加計算成本。為在降低計算複雜度的同時保留圖像細節,我們提出了一種結合動態圖像金字塔(DIP)的文本引導令牌剪枝方法。我們的方法包括:(i)一個區域聚焦模塊(RFM),利用文本感知的區域定位能力來識別關鍵視覺令牌;(ii)基於DIP的從粗到細的圖像瓦片選擇和視覺令牌剪枝策略,該策略由RFM輸出引導,避免直接處理整個大圖像。此外,現有評估LVLMs在大規模RSI上感知能力的基準存在問題多樣性有限和圖像尺寸受限的問題。我們構建了一個名為LRS-VQA的新基準,包含8個類別的7,333個問答對,圖像長度可達27,328像素。在相同數據下,我們的方法在四個數據集上優於現有的高分辨率策略。此外,與現有的令牌減少方法相比,我們的方法在高分辨率設置下表現出更高的效率。數據集和代碼可在https://github.com/VisionXLab/LRS-VQA獲取。
大型行動模型(LAMs)已徹底革新了智能自動化領域,但其在醫療保健中的應用卻因隱私問題、延遲及對網絡連接的依賴而面臨挑戰。本報告介紹了一種設備端的多代理醫療助手,成功克服了這些限制。該系統利用小型、任務專用的代理來優化資源,確保可擴展性和高性能。我們提出的系統作為一站式醫療保健解決方案,具備預約掛號、健康監測、用藥提醒及日常健康報告等功能。基於Qwen Code Instruct 2.5 7B模型,規劃者與呼叫者代理在我們的任務中分別達到了平均85.5和96.5的RougeL分數,同時保持輕量化,適合設備端部署。這一創新方法結合了設備端系統與多代理架構的優勢,為以用戶為中心的醫療保健解決方案開闢了新路徑。
潛在擴散模型(LDMs)因其生成過程不穩定而聞名,即使輸入噪聲中的微小擾動或偏移也可能導致顯著不同的輸出。這限制了它們在需要一致結果的應用中的適用性。在本研究中,我們重新設計了LDMs,通過使其具有平移等變性來增強一致性。雖然引入抗鋸齒操作可以部分改善平移等變性,但由於LDMs中的獨特挑戰,包括1)在VAE訓練和多個U-Net推理過程中鋸齒效應的放大,以及2)本質上缺乏平移等變性的自注意力模塊,顯著的鋸齒效應和不一致性仍然存在。為了解決這些問題,我們重新設計了注意力模塊,使其具有平移等變性,並提出了一種等變性損失,有效抑制了連續域中特徵的頻帶寬度。由此產生的無鋸齒LDM(AF-LDM)實現了強大的平移等變性,並且對不規則變形也具有魯棒性。大量實驗表明,AF-LDM在各種應用中,包括視頻編輯和圖像到圖像轉換,比原始LDM產生了顯著更一致的結果。代碼可在以下網址獲取:https://github.com/SingleZombie/AFLDM。
構建高效且有效的基於Transformer的大型語言模型(LLMs)近期已成為研究焦點,這需要在最大化模型語言能力的同時,最小化訓練與部署成本。現有研究主要描述了模型性能、參數規模與數據規模之間的複雜關係,並尋求訓練LLMs的最佳計算資源分配方案。然而,這些研究忽略了上下文長度及注意力頭配置(在分組查詢注意力中查詢與鍵值頭的數量)對訓練與推理的影響。本文中,我們系統地比較了不同參數規模、上下文長度及注意力頭配置的模型在性能、計算成本與內存成本上的表現。隨後,我們擴展了僅基於參數規模與訓練計算的現有縮放方法,以指導在訓練與推理階段構建成本最優的LLMs。我們的定量縮放研究表明,在處理足夠長的序列時,擁有較少注意力頭的更大模型能夠實現更低的損失,同時產生更低的計算與內存成本。這些發現為開發實用的LLMs,尤其是在長上下文處理場景中,提供了寶貴的見解。我們將公開我們的代碼與數據。
檢索增強生成(RAG)作為大型語言模型(LLMs)的有效補充,其流程中往往忽視了文本分塊這一關鍵環節。本文首先提出了一種雙指標評估方法,包含邊界清晰度與塊粘性,以實現對分塊質量的直接量化。基於此評估方法,我們揭示了傳統與語義分塊在處理複雜上下文細微差別時的固有侷限,從而證明了將LLMs整合至分塊過程的必要性。為解決基於LLM方法在計算效率與分塊精度之間固有的權衡問題,我們設計了粒度感知的混合分塊器(MoC)框架,該框架包含一個三階段處理機制。值得注意的是,我們的目標是引導分塊器生成結構化的分塊正則表達式列表,隨後利用這些表達式從原始文本中提取塊。大量實驗表明,我們提出的指標與MoC框架均有效解決了分塊任務的挑戰,揭示了分塊核心,同時提升了RAG系統的性能。
預訓練語言模型(PLMs)已革新了科學研究,但其在單細胞分析中的應用仍顯局限。文本PLMs無法處理單細胞RNA測序數據,而細胞PLMs則缺乏處理自由文本的能力,這限制了它們在多模態任務中的應用。現有嘗試橋接這些模態的努力往往面臨信息丟失或單模態預訓練不足的問題,導致性能欠佳。為應對這些挑戰,我們提出了單細胞多模態生成預訓練轉換器(scMMGPT),這是一個用於聯合細胞與文本建模的統一PLM。scMMGPT有效地整合了最先進的細胞與文本PLMs,促進了跨模態知識共享,從而提升性能。為彌合文本與細胞模態間的鴻溝,scMMGPT採用了專用的跨模態投影器,並在2700萬個細胞上進行了大規模預訓練——這是迄今為止多模態細胞-文本PLMs的最大數據集。此大規模預訓練使scMMGPT在聯合細胞-文本任務中表現卓越,在細胞描述生成的文本差異上實現了84%的相對提升,細胞類型註釋的準確率提高了20.5%,文本條件下的偽細胞生成的k-NN準確率提升了4%,均優於基準模型。
長視頻中的視頻問答(VQA)面臨著從大量冗餘幀中提取相關信息並建模長程依賴關係的關鍵挑戰。自注意力機制為序列建模提供了一種通用解決方案,但在處理長視頻中大量時空標記時,其計算成本過高。大多數先前的方法依賴於壓縮策略來降低計算成本,例如通過稀疏幀採樣減少輸入長度,或通過時空池化壓縮傳遞給大型語言模型(LLM)的輸出序列。然而,這些簡單的方法過度表示冗餘信息,往往會錯過顯著事件或快速發生的時空模式。在本研究中,我們引入了BIMBA,一種高效的狀態空間模型來處理長視頻。我們的模型利用選擇性掃描算法,學習從高維視頻中有效選擇關鍵信息,並將其轉換為簡化的標記序列,以便LLM高效處理。大量實驗表明,BIMBA在多個長視頻VQA基準測試中達到了最先進的準確率,包括PerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench和Video-MME。代碼和模型已公開於https://sites.google.com/view/bimba-mllm。
隨機抽樣一致性(RANSAC)是一種從噪聲數據中穩健估計參數模型的基礎方法。現有的基於學習的RANSAC方法利用深度學習來增強RANSAC對異常值的魯棒性。然而,這些方法在訓練和測試時使用的是由相同算法生成的數據,導致在推理階段對分佈外數據的泛化能力有限。因此,在本文中,我們引入了一種新穎的基於擴散的範式,該範式逐步向真實數據注入噪聲,模擬訓練基於學習的RANSAC時的噪聲條件。為了增強數據多樣性,我們將蒙特卡羅採樣融入擴散範式中,通過在多個階段引入不同類型的隨機性來近似多樣的數據分佈。我們在ScanNet和MegaDepth數據集上通過全面的實驗來評估我們的方法在特徵匹配中的應用。實驗結果表明,我們的蒙特卡羅擴散機制顯著提升了基於學習的RANSAC的泛化能力。我們還進行了廣泛的消融研究,以突出我們框架中關鍵組件的有效性。
機器學習力場(MLFFs)作為一種替代昂貴的從頭算量子力學分子模擬的有前景方法,鑑於感興趣的化學空間多樣性及生成新數據的高成本,理解MLFFs如何在其訓練分佈之外進行泛化顯得尤為重要。為了表徵並更好地理解MLFFs中的分佈偏移,我們在化學數據集上進行了診斷性實驗,揭示了即使對於基於大量數據訓練的大型基礎模型而言,也構成顯著挑戰的常見偏移。基於這些觀察,我們假設當前的監督訓練方法未能充分正則化MLFFs,導致過擬合並學習到對分佈外系統的不良表徵。隨後,我們提出了兩種新方法作為緩解MLFFs分佈偏移的初步步驟。我們的方法聚焦於測試時的精煉策略,這些策略計算成本低且不使用昂貴的從頭算參考標籤。第一種策略基於譜圖理論,通過修改測試圖的邊緣以與訓練期間觀察到的圖結構對齊。我們的第二種策略通過使用輔助目標(如廉價的物理先驗)進行梯度步進來改善測試時對分佈外系統的表徵。我們的測試時精煉策略顯著降低了分佈外系統上的誤差,表明MLFFs有能力並可以朝著模擬多樣化化學空間的方向發展,但目前的訓練方式並未有效引導其實現這一目標。我們的實驗為評估下一代MLFFs的泛化能力建立了明確的基準。我們的代碼可在https://tkreiman.github.io/projects/mlff_distribution_shifts/獲取。