每日精選AI研究論文及翻譯
透過使用規模龐大的圖像-文字配對來訓練文圖模型,可以從文字中生成各種視覺概念。然而,這些預先訓練的模型在生成高度美學圖像時常面臨挑戰。這促使在預訓練後進行美學調整的需求。本文提出了品質微調方法,有效引導預先訓練的模型專門生成高度視覺吸引力的圖像,同時保持在視覺概念上的普遍性。我們的關鍵見解是,通過使用一組驚人小但極具視覺吸引力的圖像進行監督微調,可以顯著提高生成品質。我們在 11 億個圖像-文字配對上預先訓練了潛在擴散模型,並僅使用幾千張精心挑選的高質量圖像進行微調。所得模型 Emu 在視覺吸引力上的勝率為 82.9%,相較於僅預先訓練的對應模型。與最先進的 SDXLv1.0 相比,Emu 在視覺吸引力上在 PartiPrompts 標準和我們基於真實世界文圖模型使用情況的 Open User Input 基準測試中分別有 68.4% 和 71.3% 的偏好。此外,我們展示品質微調是一種通用方法,對於其他架構,包括像素擴散和遮罩生成變壓器模型,也同樣有效。
我們建議在VQ-VAE的潛在表示中用一種簡單的方案有限純量量化(FSQ)取代向量量化(VQ),其中我們將VAE表示投影到少數維度(通常少於10個)。每個維度被量化為一組固定值的小集合,從而產生由這些集合的乘積組成的(隱式)碼本。通過適當地選擇維度的數量和每個維度可以取的值,我們獲得與VQ中相同的碼本大小。在這種離散表示之上,我們可以訓練已經在VQ-VAE表示上訓練過的相同模型。例如,自回歸和遮罩變壓器模型用於圖像生成、多模態生成和密集預測計算機視覺任務。具體來說,我們在圖像生成中使用MaskGIT進行FSQ,在深度估計、著色和全景分割中使用UViM。儘管FSQ的設計要簡單得多,但我們在所有這些任務中獲得了有競爭力的表現。我們強調,FSQ不會遭受碼本崩潰,也不需要VQ中使用的複雜機制(承諾損失、碼本重新種植、碼分割、熵懲罰等)來學習表達豐富的離散表示。
我們提出了一種基於低秩適應(LoRA)的神經語言建模系統,用於語音識別輸出重評分。儘管像BERT這樣的預訓練語言模型(LMs)在二次重評分中表現出優越性能,但是將預訓練階段的規模擴大和將預訓練模型適應到特定領域的高計算成本限制了它們在重評分中的實際應用。在這裡,我們提出了一種基於低秩分解的方法,用於訓練一個重評分BERT模型並僅使用預訓練參數的一小部分(0.08%)來適應新領域。這些插入的矩陣通過一個具有基於相關性的正則化損失的區分性訓練目標來進行優化。所提出的低秩適應Rescore-BERT(LoRB)架構在LibriSpeech和內部數據集上進行評估,培訓時間減少了5.4到3.6倍。
在大規模預訓練文本到視頻擴散模型(VDMs)領域取得了顯著進展。然而,先前的方法要麼僅依賴基於像素的VDMs,這將帶來高計算成本,要麼依賴基於潛在變量的VDMs,這往往難以實現精確的文本-視頻對齊。在本文中,我們首次提出了一種混合模型,名為Show-1,將基於像素和基於潛在變量的VDMs結合起來進行文本到視頻生成。我們的模型首先使用基於像素的VDMs生成具有強文本-視頻相關性的低分辨率視頻。之後,我們提出了一種新的專家翻譯方法,利用基於潛在變量的VDMs進一步將低分辨率視頻上採樣到高分辨率。與潛在VDMs相比,Show-1能夠生成具有精確文本-視頻對齊的高質量視頻;與像素VDMs相比,Show-1更高效(推理過程中的GPU內存使用為15G vs 72G)。我們還在標準視頻生成基準上驗證了我們的模型。我們的代碼和模型權重可以在https://github.com/showlab/Show-1 公開獲取。
我們提出一種新型的神經場,使用一般的基於徑向基的信號表示。最先進的神經場通常依賴基於網格的表示來存儲本地神經特徵和N維線性核心,以在連續查詢點上插值特徵。它們的神經特徵的空間位置固定在網格節點上,無法很好地適應目標信號。相反,我們的方法建立在具有靈活核心位置和形狀的一般徑向基之上,這些基具有更高的空間適應性,可以更緊密地擬合目標信號。為了進一步提高徑向基函數的通道容量,我們建議將它們與多頻率正弦函數組合。這種技術將一個徑向基擴展到不同頻率帶的多個傅立葉徑向基,而無需額外的參數,有助於表示細節。此外,通過將自適應徑向基與基於網格的基結合,我們的混合組合繼承了適應性和插值平滑性。我們精心設計了加權方案,讓徑向基能夠有效地適應不同類型的信號。我們在2D圖像和3D符號距離場表示上的實驗證明了我們的方法比先前方法具有更高的準確性和緊湊性。當應用於神經輻射場重建時,我們的方法實現了最先進的渲染質量,具有較小的模型尺寸和可比較的訓練速度。
近年來,大規模語言預訓練和文本到圖像模型的進步已經徹底改變了機器學習領域。然而,將這兩種模態整合為一個能夠生成無縫多模態輸出的單一、強大模型仍然是一個重大挑戰。為了應對這一缺口,我們提出聯合自回歸混合(JAM)框架,這是一種模塊化方法,系統地融合現有的文本和圖像生成模型。我們還引入了一種專門的、高效的數據調整策略,針對混合模態生成任務量身定制。我們最終的指導調整模型展示了在生成高質量多模態輸出方面無與倫比的性能,並且是首個專門為此目的而設計的模型。
了解人類如何利用身體接觸與世界互動是實現以人為中心的人工智慧的關鍵。推斷3D接觸對於建模逼真且符合物理的人-物互動至關重要,然而現有方法要麼專注於2D,要麼考慮身體關節而非表面,要麼使用粗糙的3D身體區域,或者無法推廣至野外圖像。相反,我們專注於推斷在任意圖像中人體表面與物體之間的密集3D接觸。為了實現這一目標,我們首先收集了一個新的數據集DAMON,其中包含與包含複雜人-物和人-場景接觸的RGB圖像配對的密集頂點級接觸標註。其次,我們訓練了一個新穎的3D接觸檢測器DECO,該檢測器使用基於身體部位和場景上下文的注意力來估計SMPL身體上的頂點級接觸。DECO建立在人類觀察者通過推理有關接觸身體部位、它們與場景物體的接近程度以及周圍場景上下文來識別接觸的洞察力之上。我們對我們的檢測器在DAMON以及RICH和BEHAVE數據集上進行了廣泛評估。我們在所有基準測試中均明顯優於現有的最先進方法。我們還展示了DECO在自然圖像中多樣且具有挑戰性的現實世界人類互動中具有良好的泛化能力。代碼、數據和模型可在https://deco.is.tue.mpg.de獲得。
最近許多研究聲稱大型語言模型(LLMs)具有新興的認知能力。然而,大多數研究依賴軼聞,忽略訓練集的污染,或缺乏涉及多項任務、對照條件、多次迭代和統計韌性測試的系統評估。本文提出兩個主要貢獻。首先,我們提出CogEval,這是一個受認知科學啟發的協議,用於系統評估大型語言模型的認知能力。CogEval協議可用於評估各種能力。其次,我們遵循CogEval協議,對八個LLMs(OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B和Alpaca-7B)的認知地圖和規劃能力進行系統評估。我們的任務提示基於人類實驗,既提供了評估規劃的建構效度,又不包含在LLM訓練集中。我們發現,儘管LLMs在一些結構較簡單的規劃任務中表現出明顯的能力,系統評估揭示了規劃任務中引人注目的失敗模式,包括對無效軌跡的幻覺和陷入循環中。這些發現不支持LLMs具有新興的即時規劃能力的想法。這可能是因為LLMs不理解規劃問題背後的潛在關係結構,即認知地圖,並且無法根據潛在結構展開目標導向的軌跡。文中討論了應用和未來方向的影響。
文本提示微調已經顯示出顯著的性能改進,將自然語言處理模型適應各種下游任務,將手工設計的提示視為可訓練的參數。受文本提示成功的啟發,幾項研究調查了視覺提示微調的有效性。在這項工作中,我們提出了視覺提示適應(VPA),這是第一個通用化視覺提示的框架,具有測試時適應性。VPA引入了少量可學習的標記,實現完全的測試時和存儲效率高的適應,而無需源域信息。我們在不同的適應設置下檢驗了我們的VPA設計,包括單圖像、批量圖像和虛標籤適應。我們在多個任務上評估了VPA,包括分布外泛化、污染魯棒性和領域適應。實驗結果顯示,VPA在各種模型上有效提高了3.3%的分布外泛化,超越了先前的測試時方法。此外,我們展示VPA相對於強基準線,將污染魯棒性提高了6.5%。最後,我們證明VPA還可以相對提高5.2%的領域適應性能。我們的VPA還在提高視覺語言模型的零樣本識別的穩健性方面表現出顯著的效果。