每日精選AI研究論文及翻譯
對生成模型的輸出進行浮水印處理是一項重要技術,用於追蹤版權並防止AI生成內容可能帶來的損害。本文介紹了一種名為樹環浮水印的新技術,可穩健地對擴散模型的輸出進行指紋識別。與現有方法在採樣後對圖像進行事後修改不同,樹環浮水印微妙地影響整個採樣過程,從而產生對人類不可見的模型指紋。浮水印將一個模式嵌入到用於採樣的初始噪聲向量中。這些模式在傅立葉空間中結構化,使其對卷積、裁剪、膨脹、翻轉和旋轉保持不變。在圖像生成後,通過反轉擴散過程來檢測浮水印信號,以檢索噪聲向量,然後檢查嵌入的信號。我們展示了這種技術可以輕鬆應用於任意擴散模型,包括文本條件穩定擴散,作為一個插件,幾乎不會導致FID損失。我們的浮水印在圖像空間中語義隱藏,比目前部署的浮水印替代方案更加穩健。代碼可在github.com/YuxinWenRick/tree-ring-watermark找到。
Transformer 大型語言模型(LLMs)以其在需要複雜多步推理的任務上表現出色而受到讚賞。然而,這些模型同時在一些看似微不足道的問題上展示出失敗。這引出了一個問題:這些錯誤是偶然的嗎,還是它們暗示了更為重大的限制?為了揭開Transformer的神秘面紗,我們研究了這些模型在三個代表性的組合任務上的極限 — 多位數乘法、邏輯網格謎題和一個經典的動態規劃問題。這些任務需要將問題分解為子步驟,並將這些步驟綜合成一個精確的答案。我們將組合任務定義為計算圖,以系統化地量化複雜性水平,並將推理步驟分解為中間子程序。我們的實證研究結果表明,Transformer通過將多步組合推理簡化為線性化子圖匹配來解決組合任務,而不一定發展出系統性的解決問題技能。為了結束我們的實證研究,我們提出了關於抽象多步推理問題的理論論點,突顯了Transformer的表現將隨著任務複雜度的增加而迅速下降。
通過優化3D模型,自動文本轉3D合成已取得顯著進展。現有方法通常依賴於預訓練的文本到圖像生成模型,例如擴散模型,為神經輻射場(NeRFs)的2D渲染提供分數並用於優化NeRFs。然而,這些方法通常由於對3D幾何的理解有限,而在多個視角上遇到藝術品和不一致性。為了解決這些限制,我們提出了使用擴散先驗重新制定優化損失的方法。此外,我們引入了一種解鎖擴散先驗潛力的新型訓練方法。為了改善3D幾何表示,我們對NeRF渲染的圖像應用輔助深度監督,並對NeRFs的密度場進行規範化。大量實驗證明了我們的方法優於先前的作品,實現了先進的照片逼真度和改善的多視角一致性。
最近在圖像-文本擴散模型方面的進展已激發了對大規模3D生成模型的研究興趣。然而,有限的多樣性3D資源的可用性對學習構成了重大挑戰。在本文中,我們提出了一種新穎的方法來生成高質量、風格化的3D頭像,該方法利用預先訓練的圖像-文本擴散模型進行數據生成,並利用基於生成對抗網絡(GAN)的3D生成網絡進行訓練。我們的方法利用圖像-文本擴散模型提供的外觀和幾何的全面先驗來生成不同風格的頭像的多視角圖像。在數據生成過程中,我們使用從現有3D模型中提取的姿勢來引導多視角圖像的生成。為了解決數據中姿勢和圖像之間的不對齊問題,我們研究了視角特定提示並開發了一個粗到細的GAN訓練判別器。我們還探討了與屬性相關的提示,以增加生成頭像的多樣性。此外,我們在StyleGAN的風格空間內開發了一個潛在擴散模型,以便基於圖像輸入生成頭像。我們的方法在視覺質量和生成頭像的多樣性方面表現優於當前最先進的方法。
本文介紹了一個名為「LibriTTS-R」的新語音數據集,專為文本轉語音(TTS)而設計。它是通過將語音恢復應用於LibriTTS語料庫而衍生而來,該語料庫包含來自2,456位說話者的585小時24 kHz採樣率的語音數據以及相應的文本。LibriTTS-R的構成樣本與LibriTTS的樣本相同,只是聲音質量得到改善。實驗結果顯示,與LibriTTS中的樣本相比,LibriTTS-R的地面真實樣本的聲音質量顯著提高。此外,使用LibriTTS-R訓練的神經端到端TTS實現了與地面真實樣本相當的語音自然度。該語料庫可從http://www.openslr.org/141/免費下載。
最近擴散模型的進步使得可以使用文本提示生成高保真度的圖像。然而,生成的圖像與現實世界的圖像之間存在領域差距,這在生成現實世界圖像的高質量變化方面構成挑戰。我們的研究揭示了這種領域差距源於不同擴散過程中潛在分佈差距。為了解決這個問題,我們提出了一種名為Real-world Image Variation by ALignment (RIVAL)的新型推理流程,該流程利用擴散模型從單一圖像示例生成圖像變化。我們的流程通過將圖像生成過程與源圖像的反演鏈對齊來增強圖像變化的生成質量。具體來說,我們證明了逐步潛在分佈對齊對於生成高質量變化是至關重要的。為了實現這一目標,我們設計了一種用於特徵交互的跨圖像自注意力注入和逐步分佈歸一化以對齊潛在特徵。將這些對齊過程納入擴散模型使得RIVAL能夠生成高質量的圖像變化,而無需進行進一步的參數優化。我們的實驗結果表明,我們提出的方法在語義條件相似性和感知質量方面優於現有方法。此外,這種通用推理流程可以輕鬆應用於其他基於擴散的生成任務,如圖像條件下的文本到圖像生成和基於示例的圖像修補。
大型語言模型(LLMs)可以從僅有少量上下文示例中學習執行各種自然語言任務。然而,對於從高度結構化語言(例如,從語義解析到複雜的特定領域語言)生成字符串,LLM從僅有少數示例中泛化是具有挑戰性的。我們探索了語法提示作為一種簡單方法,讓LLMs能夠在上下文學習期間使用外部知識和特定領域約束,透過以巴科斯-瑙爾范式(BNF)表示的語法來表達。語法提示通過將每個示範示例與一個專門的語法相結合,該語法最少程度上足以生成特定輸出示例,其中專門的語法是完整DSL語法的子集。對於推論,LLM首先根據測試輸入預測BNF語法,然後根據語法規則生成輸出。實驗表明,語法提示可以使LLMs在各種DSL生成任務上表現出競爭力,包括語義解析(SMCalFlow、Overnight、GeoQuery)、PDDL規劃,甚至分子生成(SMILES)。
我們介紹了擴展 PaLI-X 的訓練配方和結果,這是一個多語言視覺與語言模型,無論是在組件大小還是訓練任務組合的廣度方面都有所提升。我們的模型在各種各樣且複雜的任務上取得了新的性能水平,包括多個基於圖像的字幕生成和問答任務、基於圖像的文件理解和少樣本(上下文中)學習,以及物體檢測、視頻問答和視頻字幕生成。PaLI-X 在大多數視覺與語言基準測試中取得了最新的技術水平(25+個)。最後,我們觀察到新興的能力,例如複雜的計數和多語言物體檢測,這些任務並未明確包含在訓練中。
大型擴散模型在文本轉語音(T2A)合成任務中取得成功,但常常面臨常見問題,如語義不一致和時間一致性差,這是由於自然語言理解有限和數據稀缺所導致的。此外,在T2A工作中廣泛使用的2D空間結構在生成可變長度音頻樣本時會導致音頻質量不佳,因為它們未能充分重視時間信息。為了應對這些挑戰,我們提出了基於潛在擴散的Make-an-Audio 2 T2A方法,它建立在Make-an-Audio的成功基礎上。我們的方法包括多種技術來改善語義對齊和時間一致性:首先,我們使用預訓練的大型語言模型(LLMs)將文本解析為結構化的<事件和順序>對,以更好地捕捉時間信息。我們還引入另一個結構化文本編碼器,以幫助在擴散去噪過程中學習語義對齊。為了改善可變長度生成的性能並增強時間信息提取,我們設計了一個基於前饋Transformer的擴散去噪器。最後,我們使用LLMs將大量音頻標籤數據擴充和轉換為音頻文本數據集,以緩解時間數據稀缺的問題。廣泛的實驗表明,我們的方法在客觀和主觀指標上優於基準模型,並在時間信息理解、語義一致性和音質方面取得顯著進展。
本文提出了一種方法,可以快速將動態3D頭像適應於任意文本描述的新風格。在現有的頭像風格化方法中,直接優化方法可以為任意風格產生出色的結果,但速度過慢且需要為每個新輸入重新進行優化過程。使用在大量風格圖像數據集上訓練的前饋網絡的快速近似方法可以快速為新輸入生成結果,但往往無法很好地泛化到新風格並在質量上表現不佳。因此,我們研究了一種新方法,AlteredAvatar,它結合了這兩種方法,並使用元學習框架。在內部迴圈中,模型學習優化以很好地匹配單個目標風格;而在外部迴圈中,模型學習高效地在許多風格之間進行風格化。訓練後,AlteredAvatar 學習了一種初始化方法,可以在少量更新步驟內快速適應新風格,這些風格可以使用文本、參考圖像或二者的組合來指定。我們展示了 AlteredAvatar 可以在速度、靈活性和質量之間取得良好平衡,同時在廣泛的新視角和面部表情中保持一致性。
我們提出了一種自動化算法,通過生成語言引導的反事實測試圖像(LANCE)來對訓練過的視覺模型進行壓力測試。我們的方法利用了最近在大型語言建模和基於文本的圖像編輯方面的進展,通過增加一套多樣、逼真且具有挑戰性的測試圖像,來擴充一個IID測試集,而不會改變模型權重。我們在我們生成的數據上對多種預訓練模型的性能進行了基準測試,觀察到顯著且一致的性能下降。我們進一步分析了模型對不同類型編輯的敏感性,並展示了它在揭示ImageNet中以前未知的類別級模型偏見方面的應用。
幾何數據相關問題在各個領域中出現,包括計算機視覺、機器人技術、化學和物理學。這類數據可以採取多種形式,如點、方向向量、平面或轉換,但迄今為止還沒有一種單一架構可以應用於如此廣泛的幾何類型並尊重它們的對稱性。本文介紹了幾何代數變換器(GATr),這是一種通用的幾何數據架構。GATr在射影幾何代數中表示輸入、輸出和隱藏狀態,該代數提供了常見幾何對象的高效16維向量空間表示,以及作用於它們的運算符。GATr對於3D歐幾里德空間的對稱群E(3)是等變的。作為一種變換器,GATr具有可擴展性、表達力和多功能性。在n體建模和機器人規劃的實驗中,GATr表現出比非幾何基線更強大的改進。
擴散模型是當前圖像生成的最先進技術,通過將生成過程細分為許多精細的去噪步驟,合成高質量的圖像。儘管擴散模型表現良好,但在計算上很昂貴,需要許多神經功能評估(NFEs)。在這項工作中,我們提出了一種基於任意時間停止時仍能生成可行圖像的擴散方法。利用現有的預訓練擴散模型,我們展示生成方案可以重新組合為兩個嵌套的擴散過程,實現對生成圖像的快速迭代改進。我們使用這種嵌套擴散方法來窺探生成過程,並根據用戶的即時偏好實現靈活的排程。在對ImageNet和基於穩定擴散的文本到圖像生成的實驗中,我們展示了我們的方法在中間生成質量方面遠遠超過原始擴散模型,而最終較慢的生成結果保持可比較性,無論是在質量上還是在量化上。
圖像廣告理解是一項具有廣泛現實應用的關鍵任務。儘管涉及各種非典型場景、現實世界實體和對場景文本的推理,解釋圖像廣告的方式相對較少被探討,特別是在具有出色泛化能力和適應性的基礎視覺語言模型(VLMs)時代。在本文中,我們通過預訓練的VLMs的角度進行了第一次對圖像廣告理解的實證研究。我們對將這些VLMs應用於圖像廣告理解中的實際挑戰進行了基準測試和揭示。我們提出了一種簡單的特徵適應策略,以有效地融合圖像廣告的多模態信息,並進一步賦予其對現實世界實體的知識。我們希望我們的研究能引起更多對廣告業廣泛相關的圖像廣告理解的關注。