每日精選AI研究論文及翻譯
我們認為,為了實現超人類智能體,未來的模型需要超人類的反饋,以提供足夠的訓練信號。目前的方法通常從人類偏好中訓練獎勵模型,但這可能會受到人類表現水平的限制,而且這些獨立凍結的獎勵模型無法在LLM訓練期間學習改進。在這項工作中,我們研究了自我獎勵語言模型,其中語言模型本身通過LLM作為評判提示,在訓練期間提供自己的獎勵。我們展示了在迭代DPO訓練期間,不僅指導能力得到改善,而且提供高質量獎勵給自己的能力也得到提升。通過我們方法的三次迭代對Llama 2 70B進行微調,得到的模型在AlpacaEval 2.0排行榜上表現優於許多現有系統,包括Claude 2、Gemini Pro和GPT-4 0613。儘管這只是一項初步研究,但這項工作為模型不斷在兩個方向上改進的可能性打開了大門。
最近,具有高效硬體感知設計的狀態空間模型(SSMs),即Mamba,展現了在長序列建模方面的巨大潛力。純粹基於SSMs建構高效且通用的視覺骨幹是一個吸引人的方向。然而,由於視覺數據的位置敏感性和對於視覺理解的全局上下文要求,對於SSMs來說,代表視覺數據是具有挑戰性的。在本文中,我們展示了視覺表示學習對自我注意力的依賴並非必要,並提出了一種具有雙向Mamba塊(Vim)的新通用視覺骨幹,它使用位置嵌入標記圖像序列並利用雙向狀態空間模型壓縮視覺表示。在ImageNet分類、COCO物體檢測和ADE20k語義分割任務中,Vim相較於DeiT等成熟的視覺Transformer實現了更高的性能,同時也顯著提高了計算和記憶體效率。例如,當對具有1248x1248分辨率的圖像進行批次推斷以提取特徵時,Vim比DeiT快2.8倍,節省了86.8%的GPU記憶體。結果表明,Vim能夠克服在高分辨率圖像上執行類Transformer理解所面臨的計算和記憶體限制,並且具有成為視覺基礎模型下一代骨幹的巨大潛力。程式碼可在https://github.com/hustvl/Vim找到。
在這份研究中,我們介紹了ChatQA,這是一系列的對話式問答(QA)模型,能夠達到GPT-4的準確度水平。具體來說,我們提出了一種兩階段的指導調整方法,可以顯著改善從大型語言模型(LLMs)中獲得的零-shot對話式QA結果。為了處理對話式QA中的檢索,我們在多輪QA數據集上對密集檢索器進行微調,這提供了與使用最先進的查詢重寫模型相當的結果,同時大幅降低了部署成本。值得注意的是,我們的ChatQA-70B在10個對話式QA數據集的平均分數方面可以優於GPT-4(54.14比53.90),而且不依賴於OpenAI GPT模型的任何合成數據。
為了增強大型語言模型(LLMs)的推理能力,一種方法是使用Chain-of-Thought(CoT)標註進行監督微調(SFT)。然而,這種方法並沒有展現出足夠強的泛化能力,因為訓練只依賴於給定的CoT數據。例如,在數學問題解決中,通常在訓練數據中每個問題只有一條標註的推理路徑。直覺上,對於算法來說,讓其從多條標註的推理路徑中學習會更好。為了解決這個問題,我們提出了一種簡單而有效的方法,稱為強化微調(ReFT),以增強學習LLMs進行推理的泛化能力,以數學問題解決為例。ReFT首先通過SFT對模型進行預熱,然後採用在線強化學習,特別是本文中的PPO算法,進一步微調模型,其中根據問題自動採樣大量推理路徑,獎勵自地真實答案中自然產生。對GSM8K、MathQA和SVAMP數據集的大量實驗表明,ReFT明顯優於SFT,並且通過結合推理時策略(如多數投票和重新排名)潛在地進一步提升性能。需要注意的是,ReFT通過從與SFT相同的訓練問題中學習而獲得改進,而無需依賴額外或擴充的訓練問題。這表明ReFT具有更優越的泛化能力。
由於可以將場景分解為多個層次,因此分組在本質上是含糊的 - 挖掘機的輪子應該被視為獨立的還是整體的一部分?我們提出了一種名為Radiance Fields的Group Anything with Radiance Fields (GARField)方法,用於從姿態圖像輸入中將3D場景分解為具有語義意義的組的層次結構。為了做到這一點,我們通過物理尺度來接受組模糊性:通過優化一個與尺度相關的3D親和特徵場,世界中的一個點可以屬於不同尺寸的不同組。我們從由Segment Anything (SAM)提供的一組2D遮罩中優化這個場,以一種尊重從粗到細層次結構的方式,利用尺度來一致地融合來自不同視角的衝突遮罩。通過這個場,我們可以通過自動樹構造或用戶交互來推導可能分組的層次結構。我們在各種野外場景上評估了GARField,並發現它有效地提取了許多層次的組:對象的聚集、對象和各種子部分。GARField本質上代表了多視角一致的分組,並且比輸入的SAM遮罩產生了更高保真度的組。GARField的分層分組可能具有令人興奮的下游應用,例如3D資產提取或動態場景理解。請參閱項目網站:https://www.garfield.studio/
在發展具體代理人方面,3D視覺語言對齊成為一個基石,著重將語言與3D物理環境相結合。與2D領域的最新進展相比,將語言與3D場景相結合面臨著幾個重大挑戰:(i) 由於多樣的物體配置、豐富的屬性和複雜的關係,3D場景的固有複雜性;(ii) 缺乏配對的3D視覺語言數據以支持具體學習;以及(iii) 缺乏一個統一的學習框架來從具體的3D數據中提煉知識。在這項工作中,我們旨在通過系統性地擴展室內環境中的3D視覺語言學習,來應對這三個主要挑戰。我們介紹了第一個百萬規模的3D視覺語言數據集SceneVerse,包括約68K個3D室內場景,由人類標註和我們可擴展的基於場景圖的生成方法衍生的250萬視覺語言對。我們展示了這種擴展性使得可以進行統一的預訓練框架,名為Grounded Pre-training for Scenes (GPS),用於3D視覺語言學習。通過廣泛的實驗,我們展示了GPS的有效性,並在所有現有的3D視覺對齊基準測試中實現了最先進的性能。SceneVerse和GPS的巨大潛力透過具有挑戰性的3D視覺語言任務中的零-shot轉移實驗得以揭示。項目網站:https://scene-verse.github.io。
世界模型在理解和預測世界動態的過程中扮演著至關重要的角色,這對於視頻生成至關重要。然而,現有的世界模型局限於特定情境,如遊戲或駕駛,限制了其捕捉一般世界動態環境複雜性的能力。因此,我們引入了WorldDreamer,一個開創性的世界模型,旨在促進對一般世界物理和運動的全面理解,顯著增強了視頻生成的能力。受大型語言模型成功的啟發,WorldDreamer將世界建模框架定位為一個無監督的視覺序列建模挑戰。通過將視覺輸入映射到離散標記並預測被遮蔽的標記來實現這一目標。在此過程中,我們結合多模態提示以促進世界模型內的交互作用。我們的實驗表明,WorldDreamer在生成各種情境下的視頻方面表現出色,包括自然場景和駕駛環境。WorldDreamer展示了在執行文本到視頻轉換、圖像到視頻合成和視頻編輯等任務方面的多功能性。這些結果突顯了WorldDreamer在捕捉多樣一般世界環境中的動態元素方面的有效性。
基於擴散的視頻生成在學術界和工業界都受到廣泛關注並取得相當成功。然而,目前的努力主要集中在單一目標或單一任務的視頻生成,例如由文本驅動的生成、由圖像驅動的生成,或由文本和圖像組合驅動的生成。這無法完全滿足真實應用場景的需求,因為用戶可能以靈活的方式輸入圖像和文本條件,可以是單獨輸入,也可以是組合輸入。為了應對這一挑戰,我們提出了一個統一模態視頻生成系統,能夠處理跨文本和圖像模態的多任務視頻生成。為此,我們從性能自由的角度重新審視我們系統中的各種視頻生成任務,並將它們分為高自由度和低自由度視頻生成類別。對於高自由度的視頻生成,我們採用多條件交叉注意力來生成與輸入圖像或文本語義對齊的視頻。對於低自由度的視頻生成,我們引入偏置高斯噪聲來替代純隨機高斯噪聲,有助於更好地保留輸入條件的內容。我們的方法在公共學術基準MSR-VTT上實現了最低的Fr\'echet視頻距離(FVD),在人類評估方面超越了當前的開源方法,並與當前的封閉源方法Gen2不相上下。更多樣本,請訪問https://univg-baidu.github.io。
隨著大型語言模型(LLMs)在各種應用中的普及,部署和擴展已變得至關重要,要求高吞吐量和低延遲的服務系統。現有框架在平衡這些需求方面存在困難,特別是對於具有長提示的工作負載。本文介紹了DeepSpeed-FastGen,該系統採用了動態SplitFuse,一種新的提示和生成組合策略,可提供高達2.3倍的有效吞吐量,平均低2倍的延遲,以及高達3.7倍低(標記級)尾延遲,相較於vLLM等最先進的系統。我們利用DeepSpeed-MII和DeepSpeed-Inference的協同組合,為LLMs提供高效且易於使用的服務系統。DeepSpeed-FastGen的先進實現支持各種模型,並提供非持久性和持久性部署選項,滿足從互動會話到長時間運行應用的各種用戶場景。我們提出了詳細的基準測試方法,通過延遲-吞吐量曲線分析性能,並通過負載平衡調查可擴展性。我們的評估顯示,在各種模型和硬件配置中,吞吐量和延遲都有顯著改善。我們討論了未來增強的路線圖,包括更廣泛的模型支持和新的硬件後端。DeepSpeed-FastGen代碼已經可以供社區參與和貢獻。
文本轉視頻生成旨在根據給定提示生成視頻。最近,幾種商業視頻模型已能夠生成合理的視頻,具有最小的噪音、出色的細節和高美學分數。然而,這些模型依賴於大規模、經過良好過濾的高質量視頻,這些視頻對社區不可及。許多現有的研究作品使用低質量的WebVid-10M數據集來訓練模型,因為這些模型被優化以適應WebVid-10M,所以難以生成高質量的視頻。在這項工作中,我們探索了從穩定擴散延伸的視頻模型的訓練方案,並研究了利用低質量視頻和合成高質量圖像來獲得高質量視頻模型的可行性。我們首先分析了視頻模型的空間和時間模塊之間的關聯以及到低質量視頻的分布轉移。我們觀察到,對所有模塊進行完整訓練導致空間和時間模塊之間的耦合比僅訓練時間模塊更強。基於這種更強的耦合,通過用高質量圖像微調空間模塊,將分布轉移到更高質量而不會出現運動劣化,從而產生一個通用的高質量視頻模型。進行評估以證明所提方法的優越性,特別是在圖像質量、運動和概念組成方面。
我們提出了可擴展插值轉換器(Scalable Interpolant Transformers,SiT),這是一系列建立在擴散轉換器(Diffusion Transformers,DiT)骨幹上的生成模型。插值框架允許以比標準擴散模型更靈活的方式連接兩個分布,這使得對建立在動態傳輸上的生成模型的各種設計選擇進行模塊化研究成為可能:使用離散或連續時間學習、確定模型學習的目標、選擇連接分布的插值器,以及部署確定性或隨機抽樣器。通過精心引入上述要素,SiT在條件ImageNet 256x256基準測試中,使用完全相同的骨幹、參數數量和GFLOPs,全面超越了DiT。通過探索各種可以與學習分開調整的擴散係數,SiT實現了2.06的FID-50K分數。
我們提出了TextureDreamer,一種新穎的圖像導向紋理合成方法,可將可重新照明的紋理從少量輸入圖像(3至5張)轉移到跨越任意類別的目標3D形狀。紋理創建是視覺和圖形領域的一個關鍵挑戰。工業公司聘請經驗豐富的藝術家手工製作3D資產的紋理。傳統方法需要密集採樣的視圖和準確對齊的幾何形狀,而基於學習的方法則僅限於數據集中特定類別的形狀。相比之下,TextureDreamer可以從現實環境中僅通過幾張隨意拍攝的圖像將高度詳細、複雜的紋理轉移到任意物體,潛在地顯著民主化紋理創建。我們的核心思想,個性化幾何感知分數提煉(PGSD),受到最近擴散模型方面的進展的啟發,包括用於紋理信息提取的個性化建模、用於詳細外觀合成的變分分數提煉,以及具有ControlNet的明確幾何引導。我們的整合和幾個重要修改顯著改善了紋理質量。對跨越不同類別的真實圖像進行的實驗表明,TextureDreamer可以成功地將高度逼真、語義有意義的紋理轉移到任意物體,超越了先前最先進技術的視覺質量。
本地隨機梯度下降(Local-SGD),又稱聯合平均,是一種分散優化方法,其中每個設備在通信期間執行多個隨機梯度下降更新。本研究提出了一項針對訓練語言模型的「非同步」本地隨機梯度下降的實證研究;也就是說,每個工作人員在完成其隨機梯度下降步驟後立即更新全局參數。我們通過檢驗工作人員硬件異構性、模型大小、工作人員數量和優化器可能如何影響學習性能來進行全面調查。我們發現,使用天真實現方式,非同步本地隨機梯度下降需要更多次迭代才能收斂,儘管更頻繁地更新(全局)模型參數。我們確定當工作人員梯度過時時,全局參數上的動量加速是一個關鍵挑戰。我們提出了一種利用延遲的 Nesterov 動量更新並根據工作人員的計算速度調整其本地訓練步驟的新方法。這種方法在 C4 數據集上評估了高達 150M 參數的模型,與同步本地隨機梯度下降在每次更新步驟的困惑度方面性能相匹敵,並在牆鐘時間方面明顯超越。
為解決以文本作為準確佈局表示的來源在文本條件擴散模型中的限制,許多研究作品納入額外信號,以條件化生成圖像中的某些屬性。儘管取得成功,先前的作品未考慮這些屬性在三維平面中的具體定位。在這個背景下,我們提出了一個條件擴散模型,該模型整合了對三維物體放置的控制,並從多個範例圖像中解開全局風格語義的表示。具體而言,我們首先引入深度解開訓練,利用物體的相對深度作為估算器,使模型能夠通過使用合成圖像三元組識別看不見物體的絕對位置。我們還引入了軟引導,這是一種在目標區域上施加全局語義而無需使用任何額外定位線索的方法。我們的集成框架「組合與征服」(CnC)將這些技術統一起來,以分離的方式定位多個條件。我們展示了我們的方法允許感知不同深度的物體,同時提供了一個多才多藝的框架,用於組合具有不同全局語義的局部物體。程式碼:https://github.com/tomtom1103/compose-and-conquer/
神經輻射場(Neural Radiance Fields,NeRF)在給定一組2D圖像時,對於新視角合成(Novel View Synthesis,NVS)表現出卓越的性能。然而,NeRF的訓練需要對每個輸入視角進行準確的相機姿勢,通常通過從運動中恢復(Structure-from-Motion,SfM)管道獲取。最近的研究嘗試放寬這種限制,但它們仍然常常依賴可以進行微調的良好初始姿勢。在這裡,我們的目標是消除對姿勢初始化的要求。我們提出了增量信心(Incremental CONfidence,ICON),這是一種從2D視頻幀訓練NeRF的優化程序。ICON僅假設平滑的相機運動來估計姿勢的初始猜測。此外,ICON引入了“信心”:一種用於動態重新加權梯度的模型質量自適應度量。ICON依賴於高信心的姿勢來學習NeRF,並依賴於高信心的3D結構(由NeRF編碼)來學習姿勢。我們展示了,ICON在沒有先前姿勢初始化的情況下,在CO3D和HO3D方面的性能優於使用SfM姿勢的方法。