每日精選AI研究論文及翻譯
文字到圖像擴散模型在過去幾年取得了顯著的進展,使得從文本提示中合成高質量且多樣化的圖像成為可能。然而,即使是最先進的模型通常也難以精確地遵循所有提示中的指示。這些模型中絕大多數是在由(圖像,標題)對組成的數據集上進行訓練,其中圖像通常來自網絡,而標題則是它們的HTML替代文本。一個著名的例子是LAION數據集,被Stable Diffusion和其他模型使用。在這項工作中,我們觀察到這些標題通常質量較低,並認為這顯著影響了模型理解文本提示中微妙語義的能力。我們展示通過使用專門的自動標題生成模型重新標記語料庫並在重新標記的數據集上訓練文字到圖像模型,模型在各方面都獲益良多。首先,在整體圖像質量方面:例如FID為14.84,而基準為17.87,以及根據人類評估,忠實圖像生成的改善率為64.3%。其次,在語義對齊方面,例如語義對象準確率為84.34,而基準為78.90,計數對齊錯誤為1.32,而基準為1.44,位置對齊為62.42,而基準為57.60。我們分析了重新標記語料庫的各種方式,並提供證據表明這種技術,我們稱之為RECAP,既減少了訓練-推斷的差異,又為模型提供了更多每個示例的信息,提高了樣本效率,使模型更好地理解標題和圖像之間的關係。
我們收集了一組具有創用CC授權的圖像數據集,用於訓練一組開放擴散模型,其在質量上與穩定擴散2(SD2)相競爭。這個任務面臨兩個挑戰:(1)高分辨率的CC圖像缺乏訓練文本到圖像生成模型所需的標題;(2)CC圖像相對稀缺。為了應對這些挑戰,我們使用直觀的遷移學習技術生成一組與精心挑選的CC圖像配對的高質量合成標題。然後,我們開發了一個數據和計算效率高的訓練配方,僅需使用現有SD2模型訓練所需的LAION-2B數據的3%,但獲得可比較的質量。這些結果表明,我們有足夠數量的CC圖像(約7000萬張)可用於訓練高質量模型。我們的訓練配方還實現了各種優化,實現了約3倍的訓練加速,從而實現快速模型迭代。我們利用這個配方訓練了幾個高質量的文本到圖像模型,我們稱之為CommonCanvas家族。我們最大的模型在人類評估中實現了與SD2相當的性能,儘管是在我們的CC數據集上訓練的,該數據集明顯比LAION小,並且使用合成標題進行訓練。我們在https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md上發布了我們的模型、數據和代碼。
我們提出了DreamCraft3D,一種分層式3D內容生成方法,可產生高保真度和連貫的3D物體。我們通過利用2D參考圖像來引導幾何雕塑和紋理增強階段來解決這個問題。本研究的核心是解決現有作品遇到的一致性問題。為了雕塑呈現連貫的幾何形狀,我們通過基於視角的擴散模型執行分數蒸餾取樣。這種3D先驗連同幾種訓練策略,優先考慮幾何一致性,但會犧牲紋理保真度。我們進一步提出了引導分數蒸餾以專門增強紋理。我們在場景的擴增渲染上訓練了一個個性化的擴散模型Dreambooth,賦予其對正在優化的場景的3D知識。從這種3D感知擴散先驗中的分數蒸餾為場景提供了視角一致的引導。值得注意的是,通過交替優化擴散先驗和3D場景表示,我們實現了相互加強的改進:優化的3D場景有助於訓練特定場景的擴散模型,為3D優化提供越來越視角一致的引導。因此,優化是自我啟動的,並且導致了實質性的紋理增強。通過在分層生成過程中定制的3D先驗,DreamCraft3D生成具有照片般逼真渲染的連貫3D物體,推動了3D內容生成的最新技術。代碼可在https://github.com/deepseek-ai/DreamCraft3D找到。
專家混合模型(MoE)架構通過稀疏路由提供了一個通用解決方案,以應對大型語言模型(LLMs)高推理成本的問題,帶來更快速和更準確的模型,但代價是龐大的參數數量。例如,SwitchTransformer-c2048 模型擁有 1.6 兆個參數,需要 3.2TB 的加速器內存才能有效運行,這使得實際部署變得具有挑戰性和昂貴。在本文中,我們提出了一個解決這個內存問題的方案,即一個名為 QMoE 的新壓縮和執行框架。具體來說,QMoE 包括一種可擴展的算法,可以將兆級參數的 MoE 準確壓縮到每個參數不到 1 位的程度,並採用與專用 GPU 解碼內核共同設計的自定義格式,以促進高效的端到端壓縮推理,相對於未壓縮的執行,僅具有輕微的運行時開銷。具體而言,QMoE 可以將 1.6 兆個參數的 SwitchTransformer-c2048 模型壓縮到不到 160GB(20倍壓縮,每個參數 0.8 位),僅有輕微的準確性損失,在單個 GPU 上不到一天的時間內完成。這使得首次可以在價格實惠的通用硬件上執行兆級參數模型,例如搭載 4 個 NVIDIA A6000 或 8 個 NVIDIA 3090 GPU 的單個伺服器,相對於理想未壓縮推理,運行時開銷不到 5%。源代碼和壓縮模型可在 github.com/IST-DASLab/qmoe 上獲得。
本文評估了GPT-4V在視覺理解、語言理解、視覺拼圖解決以及理解深度、熱度、視頻和音頻等其他模態方面的不同能力。為了評估GPT-4V的表現,我們手動構建了656個測試實例並仔細評估了GPT-4V的結果。我們的研究發現要點如下: (1) GPT-4V在英文視覺中心基準測試中表現出色,但無法識別圖像中的簡單中文文本;(2) 當回答涉及性別、種族和年齡等敏感特徵的問題時,GPT-4V展現出不一致的拒絕行為;(3) GPT-4V在語言理解任務上的表現比GPT-4 (API)差,包括一般語言理解基準測試和視覺常識知識評估基準測試;(4) 少量提示可以提高GPT-4V在視覺理解和語言理解方面的表現;(5) GPT-4V難以找出兩個相似圖像之間的細微差異並解決簡單的數學圖片拼圖;(6) GPT-4V在與圖像類似的模態任務上表現出不俗的表現,如視頻和熱度。我們的實驗結果揭示了GPT-4V的能力和局限性,希望本文能為GPT-4V的應用和研究提供一些見解。
在這份工作中,我們介紹了 Wonder3D,一種從單視角圖像高效生成高保真度紋理網格的新方法。最近基於得分蒸餾取樣(SDS)的方法已經展示了從2D擴散先驗中恢復3D幾何的潛力,但通常受到耗時的每形狀優化和不一致的幾何的困擾。相比之下,某些作品通過快速網絡推斷直接生成3D信息,但其結果通常質量低且缺乏幾何細節。為了全面提高圖像到3D任務的質量、一致性和效率,我們提出了一種跨領域擴散模型,生成多視角法線圖和相應的彩色圖像。為確保一致性,我們採用了多視角跨領域注意機制,促進跨視圖和模態之間的信息交換。最後,我們介紹了一種幾何感知法線融合算法,從多視角2D表示中提取高質量表面。我們的廣泛評估表明,與先前作品相比,我們的方法實現了高質量的重建結果、強大的泛化能力和相當不錯的效率。
許多研究人員認為ConvNets在小型或中等大小的數據集上表現良好,但在網絡規模的數據集上,與Vision Transformers相比並不具競爭力。我們通過評估在JFT-4B上預先訓練的高效ConvNet架構來挑戰這種觀點,JFT-4B是一個常用於訓練基礎模型的大型標記圖像數據集。我們考慮預訓練計算預算介於0.4k和110k TPU-v4核心計算小時之間,並從NFNet模型系列中訓練一系列不斷加深和加寬的網絡。我們觀察到保留損失和計算預算之間存在對數對數比例定律。在在ImageNet上進行微調後,NFNets與具有相應計算預算的Vision Transformers的報告性能相匹配。我們最強的微調模型實現了90.4%的Top-1精度。
我們提出 LLM-FP4 來將大型語言模型(LLMs)中的權重和激活量化為 4 位浮點值,以後訓練方式進行。現有的後訓練量化(PTQ)解決方案主要基於整數,對於低於 8 位的位寬感到困難。與整數量化相比,浮點(FP)量化更靈活,可以更好地處理長尾或鐘形分佈,已成為許多硬體平台的默認選擇。FP 量化的一個特點是其性能在很大程度上取決於指數位和剪切範圍的選擇。在這方面,我們通過尋找最佳量化參數構建了一個強大的 FP-PTQ 基準線。此外,我們觀察到激活分佈中存在著高通道間變異和低通道內變異的模式,這增加了激活量化的難度。我們認識到這種模式在設計用於不同任務的一系列變壓器模型(如LLMs、BERT 和 Vision Transformer 模型)中是一致的。為了應對這一問題,我們提出了逐通道激活量化,並展示這些額外的縮放因子可以重新參數化為權重的指數偏差,帶來可忽略的成本。我們的方法首次能夠將 LLaMA-13B 中的權重和激活量化為僅 4 位,並在常識零-shot 推理任務上實現了平均得分為 63.1,比全精度模型低僅 5.8,明顯優於先前的最新技術 12.7 分。代碼可在以下鏈接找到:https://github.com/nbasyl/LLM-FP4。
儘管大型語言模型(LLMs)被廣泛應用,但用於訓練它們的數據很少被披露。考慮到這些數據的龐大規模,高達數萬億標記,幾乎可以肯定其中包含潛在問題文本,例如受版權保護的材料、可識別個人信息以及廣泛報導的參考基準測試數據。然而,我們目前無法確定包含了哪些類型的數據,以及其比例如何。本文研究了預訓練數據檢測問題:在不知道預訓練數據的情況下,給定一段文本和對LLM的黑盒訪問,我們能否確定模型是否是在提供的文本上進行訓練的?為了促進這一研究,我們引入了一個動態基準WIKIMIA,該基準使用在模型訓練之前和之後創建的數據來支持金標真實檢測。我們還提出了一種新的檢測方法Min-K% Prob,基於一個簡單的假設:在LLM下,一個未見過的示例很可能包含一些概率較低的異常詞,而一個已見過的示例較不可能包含這種概率較低的詞。Min-K% Prob可以應用,而無需了解預訓練語料庫或進行任何額外的訓練,這與以往需要在與預訓練數據相似的數據上訓練參考模型的檢測方法有所不同。此外,我們的實驗表明,Min-K% Prob在WIKIMIA上比這些以前的方法實現了7.4%的改進。我們將Min-K% Prob應用於兩個現實場景,即受版權保護書籍檢測和受污染的下游示例檢測,並發現它是一個一致有效的解決方案。
基於Transformer的大型語言模型(LLMs)是自然語言處理任務中的開創性進展,然而,它們卓越的能力僅限於Transformer的預設上下文窗口內。位置嵌入(PE)縮放方法雖然能有效地將上下文窗口延伸至特定長度,但在其外推能力方面顯示出顯著的局限性,或者在上下文窗口內部分性能上作出犧牲。長度外推方法雖然在理論上能夠將上下文窗口延伸至超出訓練序列長度,但在實際長上下文應用中常常表現不佳。為應對這些挑戰,我們提出了適用於LLMs的連續長度外推(CLEX)。我們將PE縮放方法泛化為模擬連續動態,通過對長度縮放因子應用常微分方程,從而克服了為特定長度設計的當前PE縮放方法的限制。此外,通過將動態擴展至超出訓練序列長度的所需上下文長度,CLEX有助於在實際任務中實現出色的長度外推表現。我們展示了CLEX可以無縫地融入配備旋轉位置嵌入的LLMs,如LLaMA和GPT-NeoX,對訓練和推理延遲幾乎沒有影響。實驗結果顯示,CLEX能夠有效地將上下文窗口延伸至訓練長度的4倍以上或接近8倍,而性能不會下降。此外,在實際的LongBench基準測試中,我們在4k長度上訓練的模型展現出與在上下文長度高達32k的最先進開源模型相競爭的性能。
保持大型基礎模型與最新數據同步是一個固有昂貴的過程。為了避免不斷重新訓練的高昂成本,持續地訓練這些模型是至關重要的。這個問題受到缺乏大規模持續學習基準或基準線的加劇。我們引入了第一組用於訓練視覺語言模型的網絡規模時間連續(TiC)基準:TiC-DataCompt、TiC-YFCC和TiC-RedCaps,涵蓋了超過12.7B個跨越9年(2014--2022)的時間戳圖像文本對。我們首先使用我們的基準來編輯各種動態評估,以測量現有模型的時間韌性。我們展示了OpenAI的CLIP(在2020年之前的數據上進行訓練)在我們從2021年至2022年精心策劃的檢索任務中,與OpenCLIP存儲庫中最近訓練的模型相比,失去了約8%的零樣本準確性。然後,我們研究如何有效地在連續時間數據上訓練模型。我們證明了一種簡單的基於複述的方法,該方法從上一次檢查點繼續訓練並重播舊數據,將計算量減少了2.5倍,與從頭重新訓練的標準做法相比。
TD-MPC 是一種基於模型的強化學習(RL)算法,它在學習的隱式(無解碼器)世界模型的潛在空間中執行局部軌跡優化。在這項工作中,我們提出了 TD-MPC2:對 TD-MPC 算法的一系列改進。我們展示了 TD-MPC2 在 104 個在線 RL 任務中相對於基準線的顯著改進,這些任務涵蓋了 4 個不同的任務領域,並且在單組超參數下持續取得穩健的結果。我們進一步展示了隨著模型和數據規模的增加,代理的能力也在提高,並成功訓練了一個單一的 3.17 億參數代理來執行跨多個任務領域、具體表現和動作空間的 80 項任務。最後,我們總結了與大型 TD-MPC2 代理相關的教訓、機遇和風險。在 https://nicklashansen.github.io/td-mpc2 探索視頻、模型、數據、代碼等更多內容。
由於移動設備的有限計算能力和存儲容量,實時在移動設備上進行新視角圖像合成是困難的。在移動設備上使用體積渲染方法,如 NeRF 及其衍生物,並不適合,因為體積渲染的計算成本高。另一方面,最近神經光場表示法的進步展示了在移動設備上有前景的實時視角合成結果。神經光場方法學習從射線表示到像素顏色的直接映射。目前的射線表示選擇為分層射線採樣或 Pl\"{u}cker 坐標,忽略了經典的光板(雙平面)表示,這是在光場視角之間插值的首選表示。在這項工作中,我們發現使用光板表示對於學習神經光場是一種高效的表示。更重要的是,這是一種低維度的射線表示,使我們能夠使用特徵網格學習 4D 射線空間,這樣訓練和渲染速度顯著更快。儘管主要設計用於正面視圖,我們展示了光板表示可以通過分治策略進一步擴展到非正面場景。我們的方法提供了比以前的光場方法更優越的渲染質量,並實現了在渲染質量和速度之間顯著改進的折衷。