每日精選AI研究論文及翻譯
大型語言模型(LLMs)的一項令人印象深刻的新興能力是生成代碼,包括用於數據庫的結構化查詢語言(SQL)。對於將自然語言文本轉換為SQL查詢的任務,即文本到SQL,LLMs的適應在上下文學習和微調設置中至關重要,具體取決於使用的適應數據量。在本文中,我們提出了一個基於LLMs的文本到SQL模型SQL-PaLM,利用PaLM-2,推動了兩種設置的最新技術。Few-shot SQL-PaLM基於一種基於執行的自一致提示方法,旨在用於文本到SQL,並在Spider上實現了77.3%的測試套件準確性,據我們所知,這是第一個通過微調明顯優於先前最先進技術的模型,提高了4%。此外,我們展示微調的SQL-PALM進一步提高了1%。為了將SQL-PaLM應用於現實情境,我們進一步評估了其在Spider的其他具有挑戰性變體上的穩健性,並展示了SQL-PaLM卓越的泛化能力。此外,通過廣泛的案例研究,我們展示了基於LLMs的文本到SQL的印象深刻的智能能力和各種成功因素。
文字到圖像擴散模型能夠從自然語言描述中創建令人驚嘆的圖像,可與專業藝術家和攝影師的作品媲美。然而,這些模型龐大,具有複雜的網絡架構和數十個去噪迭代,使其在運行時計算昂貴且速度緩慢。因此,需要高端GPU和基於雲的推斷來大規模運行擴散模型。這既昂貴又存在隱私問題,尤其是當用戶數據發送給第三方時。為了克服這些挑戰,我們提出了一種通用方法,首次實現在移動設備上運行文字到圖像擴散模型少於2秒。我們通過引入高效的網絡架構和改進步驟蒸餾來實現這一目標。具體來說,我們通過識別原始模型的冗餘性並通過數據蒸餾減少圖像解碼器的計算,提出了一種高效的UNet。此外,我們通過探索訓練策略和引入來自無分類器引導的正則化來增強步驟蒸餾。我們在MS-COCO上進行了大量實驗,結果顯示,我們的模型在8個去噪步驟下的FID和CLIP分數優於50個步驟的穩定擴散v1.5。我們的工作通過將強大的文字到圖像擴散模型帶到用戶手中,實現了內容創作的民主化。
我們介紹了一種名為Wuerstchen的新穎文本到圖像合成技術,它結合了競爭性表現與前所未有的成本效益和在受限硬體上訓練的便利性。借鑒機器學習的最新進展,我們的方法利用強潛在圖像壓縮率下的潛在擴散策略,顯著降低了與最先進模型通常相關的計算負擔,同時保留,甚至增強了生成圖像的質量。Wuerstchen在推理時間方面實現了顯著的速度改進,從而使實時應用更具可行性。我們方法的一個關鍵優勢在於僅需9200個GPU小時的適度訓練需求,大幅削減了通常成本,而不會影響最終性能。通過與最先進技術的比較,我們發現這種方法具有強大的競爭力。本文開啟了一條新的研究路線,優先考慮性能和計算可訪問性,從而實現對複雜AI技術的民主化使用。通過Wuerstchen,我們展示了在文本到圖像合成領域中向前邁出的引人注目一步,為未來研究提供了一條創新的探索途徑。
我們提出了GenMM,一種生成模型,可以從單個或少量示例序列中「挖掘」盡可能多樣的動作。與現有的數據驅動方法形成鮮明對比,這些方法通常需要長時間的離線訓練,容易產生視覺異常,並且在大型和複雜骨架上容易失敗,GenMM繼承了無需訓練的特性,並具有優質的Motion Matching方法。GenMM可以在一秒內合成高質量的動作,即使是高度複雜和大型的骨架結構也能輕鬆應對。我們的生成框架的核心是生成式運動匹配模塊,它利用雙向視覺相似性作為生成成本函數來進行運動匹配,在多階段框架中逐步通過示例運動匹配來進行隨機猜測的改進。除了多樣的動作生成外,我們通過將其擴展到一些Motion Matching無法實現的場景,包括運動完成、關鍵幀引導生成、無限循環和運動重組,展示了我們生成框架的多功能性。本文的代碼和數據位於https://wyysf-98.github.io/GenMM/
現代深度學習方法通常將輸入轉換為特定於模態的形式。例如,對於圖像分類,最常見的深度學習方法涉及將圖像文件位元組解碼為RGB張量,然後將其傳遞到神經網絡中。相反,我們研究在推論時直接對文件位元組執行分類,而無需解碼文件。使用文件位元組作為模型輸入使得能夠開發可以處理多種輸入模態的模型。我們的模型ByteFormer 在 TIFF 文件位元組上進行訓練和測試,使用了類似於 DeiT-Ti 的變壓器骨幹結構,實現了 ImageNet Top-1 分類準確率為 77.33%(在 RGB 圖像上操作時的準確率為 72.2%)。在不進行修改或超參數調整的情況下,ByteFormer 在 Speech Commands v2 數據集的 WAV 文件上實現了 95.42% 的分類準確率(與當前最先進的 98.7% 準確率相比)。此外,我們展示了 ByteFormer 在隱私保護推論方面的應用。ByteFormer 能夠對特定混淆的輸入表示執行推論,而不會損失準確性。我們還展示了 ByteFormer 在具有假設的隱私保護相機上執行推論的能力,該相機通過持續遮蔽 90% 的像素通道而避免形成完整圖像,同時在 ImageNet 上實現 71.35% 的準確率。我們的代碼將在 https://github.com/apple/ml-cvnets/tree/main/examples/byteformer 上提供。
文字到圖像擴散模型展示了從文字概念(例如「醫生」、「愛」)生成高質量、多樣化圖像的無與倫比能力。然而,將文字映射到豐富的視覺表示的內部過程仍然是一個謎。在這項工作中,我們通過將輸入的文本提示分解為一小組可解釋元素來應對理解文字到圖像模型中的概念表示的挑戰。這是通過學習一個虛擬標記來實現的,該標記是模型詞彙表中標記的稀疏加權組合,其目標是重構為給定概念生成的圖像。應用於最先進的穩定擴散模型,這種分解揭示了概念表示中的非平凡和令人驚訝的結構。例如,我們發現一些概念,如「總統」或「作曲家」,被特定實例(例如「奧巴馬」、「拜登」)及其插值所主導。其他概念,如「幸福」,結合了可以是具體的(如「家庭」、「笑聲」)或抽象的(如「友誼」、「情感」)相關術語。除了窺探穩定擴散的內部運作,我們的方法還實現了單圖像分解為標記、偏見檢測和緩解,以及語義圖像操作等應用。我們的程式碼將在以下網址提供:https://hila-chefer.github.io/Conceptor/
從我們想像中的事件或情境中創建生動的影片是一種真正迷人的體驗。最近在文本到影片合成方面的進步揭示了僅需提示即可實現此目標的潛力。雖然文本在傳達整體場景背景方面很方便,但可能不足以精確控制。本文探討了通過利用文本作為上下文描述和運動結構(例如逐幀深度)作為具體指導來進行定制影片生成的方法。我們的方法被稱為“製作您的影片”,涉及使用預先訓練用於靜態圖像合成的潛在擴散模型,然後通過引入時間模塊來促進影片生成的聯合條件影片生成。這種兩階段學習方案不僅減少了所需的計算資源,還通過將僅在圖像數據集中可用的豐富概念轉移到影片生成中來提高性能。此外,我們使用了一種簡單而有效的因果注意力遮罩策略,以實現更長的影片合成,從而有效地減輕潛在的質量降級。實驗結果顯示我們的方法在各方面優於現有基準線,特別是在時間一致性和對用戶指導的忠實度方面。此外,我們的模型實現了幾個引人入勝的應用,展示了實際應用潛力。
我們研究了利用由文本到圖像模型生成的合成圖像來學習視覺表示的潛力。考慮到這些模型在生成高質量圖像方面的出色表現,這是一個自然的問題。我們具體考慮了Stable Diffusion,這是領先的開源文本到圖像模型之一。我們表明:(1) 當生成模型配置了適當的無分類器指導尺度時,在合成圖像上訓練自監督方法可以匹敵或超越真實圖像對應物;(2) 通過將從同一文本提示生成的多個圖像視為彼此的正例,我們開發了一種多正例對比學習方法,我們稱之為StableRep。僅使用合成圖像,StableRep學習的表示優於使用相同文本提示集和相應真實圖像的SimCLR和CLIP學習的表示,在大規模數據集上。當我們進一步添加語言監督時,使用2000萬合成圖像訓練的StableRep的準確性優於使用5000萬真實圖像訓練的CLIP。
最近提出了使用擴散模型進行個性化文本到圖像生成,並引起了廣泛關注。給定包含新概念(例如獨特玩具)的少量圖像,我們旨在調整生成模型以捕捉新概念的精細視覺細節,並根據文本條件生成照片般逼真的圖像。我們提出了一種名為ViCo的插件方法,用於快速輕量級的個性化生成。具體而言,我們提出了一個圖像注意力模塊,以在基於區塊的視覺語義上條件化擴散過程。我們引入了一個基於注意力的對象遮罩,幾乎不需要額外成本。此外,我們設計了一個簡單的正則化方法,基於文本-圖像注意力映射的內在特性,以減輕常見的過度擬合降級問題。與許多現有模型不同,我們的方法不對原始擴散模型的任何參數進行微調。這使得模型部署更靈活且易於轉移。通過僅輕量參數訓練(擴散 U-Net 的約6%),我們的方法在質量和量化方面均實現了與所有最先進模型相當甚至更好的性能。
最近,自監督學習(SSL)作為一種有前景的範式出現,用於在視覺、文本和語音領域的大規模數據上訓練通用模型。儘管SSL在語音和音頻方面已被證明有效,但其在音樂音頻方面的應用尚未得到充分探索。這主要是由於與建模音樂知識相關的獨特挑戰,特別是音樂的音調和音高特徵。為了填補這一研究空白,我們提出了一種具有大規模自監督訓練的聲學音樂理解模型(MERT),該模型融入了教師模型,在掩碼語言建模(MLM)風格的聲學預訓練中提供虛擬標籤。在我們的探索中,我們確定了一種優越的教師模型組合,該組合在性能方面優於傳統的語音和音頻方法。這種組合包括基於剩餘向量量化 - 變分自編碼器(RVQ-VAE)的聲學教師和基於常量Q變換(CQT)的音樂教師。這些教師有效地引導我們的學生模型,一個類似BERT風格的變壓器編碼器,以更好地建模音樂音頻。此外,我們引入了一種批內噪聲混合增強以增強表示的魯棒性。此外,我們探索了各種設置以克服聲學語言模型預訓練中的不穩定性,這使我們設計的範式能夠從95M擴展到330M參數。實驗結果表明,我們的模型能夠在14個音樂理解任務上進行泛化並表現良好,並取得了最先進的整體分數。代碼和模型在線上:https://github.com/yizhilll/MERT。
存在對於定製預訓練大型文本到圖像模型(例如穩定擴散)的需求,以生成創新概念,例如用戶本身。然而,從先前的定製方法中新增的概念在訓練期間通常表現出比原始概念更弱的組合能力,即使提供了多幅圖像。因此,我們提出了一種新的個性化方法,允許將獨特個人無縫地整合到預先訓練的擴散模型中,僅需一張面部照片和僅 1024 個可學習參數,在 3 分鐘內完成。這樣,我們就可以輕鬆生成這個人在任何姿勢或位置中與任何人互動,並根據文本提示進行各種想像的活動。為了實現這一目標,我們首先從預先訓練的大型文本編碼器的嵌入空間中分析並構建了一個明確的名人基礎。然後,給定一張面部照片作為目標身份,我們通過優化該基礎的權重並鎖定所有其他參數來生成其自己的嵌入。在我們定製的模型中,由於所提出的名人基礎,新的身份展示出比先前個性化方法更好的概念組合能力。此外,我們的模型還可以同時學習多個新身份,並在先前的定製模型失敗時彼此互動。程式碼將被釋出。
大規模生成模型能夠根據詳細的文字描述產生高質量的圖像。然而,圖像的許多方面是通過文字難以或不可能傳達的。我們引入了自我引導,這是一種通過引導擴散模型的內部表示來提供對生成圖像更大控制的方法。我們展示了從這些表示中可以提取形狀、位置和物體外觀等屬性,並用於引導採樣。自我引導的工作方式類似於分類器引導,但使用預訓練模型本身中存在的信號,無需額外的模型或訓練。我們展示了如何組合一組簡單的屬性來執行具有挑戰性的圖像操作,例如修改物體的位置或大小,將一個圖像中的物體外觀與另一個圖像的佈局合併,將來自多個圖像的物體組合成一個圖像等。我們還展示了自我引導可用於編輯真實圖像。有關結果和互動演示,請參見我們的項目頁面:https://dave.ml/selfguidance/
基於Transformer的大型語言模型取得了巨大的實證成功。然而,隨著它們被更廣泛地部署,迫切需要更好地理解其內部機制,以使其更可靠。這些模型似乎從訓練數據中儲存了大量知識,並能夠快速適應其上下文或提示中提供的新信息。我們通過考慮一個合成設置,其中token從全局或特定上下文的bigram分佈生成,來研究Transformer如何平衡這兩種知識類型。通過對簡化的兩層Transformer的訓練過程進行仔細的實證分析,我們說明了全局bigrams的快速學習以及上下文中bigrams的“歸納頭”機制的較慢發展。我們強調了權重矩陣作為聯想記憶的作用,提供了有關梯度如何在訓練期間實現其學習的理論見解,並研究了數據分佈特性的作用。
從文字描述生成音樂是一種用戶友好的模式,因為文字是相對容易讓用戶參與的界面。雖然一些方法利用文字來控制音樂音頻生成,但編輯生成音頻中的音樂元素對用戶來說是具有挑戰性的。相比之下,符號音樂提供了編輯的便利性,使用戶更容易操控特定的音樂元素。在本文中,我們提出了MuseCoco,它從文字描述生成符號音樂,以音樂屬性作為橋樑,將任務分解為文字到屬性理解和屬性到音樂生成兩個階段。MuseCoCo代表音樂作曲副駕駛,賦予音樂家直接從給定的文字描述生成音樂的能力,相較於完全從頭開始創作音樂,效率顯著提高。該系統有兩個主要優勢:首先,它具有數據效率。在屬性到音樂生成階段,屬性可以直接從音樂序列中提取,使模型訓練自監督。在文字到屬性理解階段,文字由基於定義的屬性模板的ChatGPT綜合和精煉。其次,該系統可以通過屬性條件或文字條件方法實現對特定屬性的精確控制,並提供多種控制選項。MuseCoco在音樂性、可控性和整體得分方面至少優於基準系統1.27、1.08和1.32。此外,客觀控制準確性有約20%的顯著提升。此外,我們開發了一個擁有12億參數的強大大型模型,展示了出色的可控性和音樂性。
程式碼智能在改變現代軟體工程中扮演著關鍵角色。最近,基於深度學習的模型,特別是基於 Transformer 的大型語言模型(LLMs),通過利用龐大的開源程式碼數據和程式語言特徵展現出卓越的潛力來應對這些任務。然而,這類模型的開發和部署通常需要機器學習和軟體工程方面的專業知識,這為模型的應用帶來了障礙。在本文中,我們提出了 CodeTF,一個開源的基於 Transformer 的庫,用於最先進的程式碼LLMs和程式碼智能。遵循模塊化設計和可擴展框架的原則,我們設計了 CodeTF,具有統一的接口,以實現對不同類型的模型、數據集和任務的快速訪問和開發。我們的庫支持一系列預訓練的程式碼LLM模型和流行的程式碼基準,包括一個標準化接口,以有效地訓練和提供程式碼LLMs,以及語言特定解析器和用於提取程式碼屬性的實用功能。在本文中,我們描述了設計原則、架構、關鍵模塊和組件,並與其他相關庫工具進行了比較。最後,我們希望 CodeTF 能夠彌合機器學習/生成式人工智能與軟體工程之間的鴻溝,為開發人員、研究人員和從業者提供全面的開源解決方案。
基於文本條件的擴散模型能夠生成具有多樣內容的高保真度圖像。然而,語言表示經常對所想象的目標圖像進行模糊描述,需要引入額外的控制信號以增強文本引導的擴散模型的效力。在這項工作中,我們提出了Cocktail,一個將各種模態混合為一個嵌入的流程,與一個通用的控制網絡(gControlNet)、可控制的歸一化(ControlNorm)和一種空間引導採樣方法相結合,以實現文本條件的擴散模型的多模態和空間細化控制。具體來說,我們引入了一個超網絡gControlNet,專門用於將來自不同模態的控制信號對齊並融入預訓練的擴散模型中。gControlNet能夠接受靈活的模態信號,包括同時接收任何組合的模態信號,或多個模態信號的補充融合。然後,根據我們提出的ControlNorm,將控制信號融合並注入到骨幹模型中。此外,我們先進的空間引導採樣方法有效地將控制信號納入指定區域,從而避免在生成的圖像中出現不需要的對象。我們展示了我們方法在控制各種模態方面的結果,證明了對多個外部信號的高質量合成和忠實度。
我們介紹了ObjectFolder Benchmark,這是一個包含10個任務的基準套件,用於多感官以物為中心的學習,圍繞著物體的識別、重建和視覺、聲音、觸覺的操作。我們還介紹了ObjectFolder Real數據集,其中包括100個現實世界家庭物品的多感官測量,基於一個新設計的流程,用於收集現實世界物體的3D網格、視頻、碰撞聲音和觸覺讀數。我們對來自ObjectFolder的1,000個多感官神經物體以及來自ObjectFolder Real的真實多感官數據進行系統化基準測試。我們的結果顯示了多感官知覺的重要性,並揭示了視覺、音頻和觸覺在不同以物為中心學習任務中的各自作用。通過公開發布我們的數據集和基準套件,我們希望在計算機視覺、機器人學等領域推動並促進多感官以物為中心學習的新研究。項目頁面:https://objectfolder.stanford.edu
基於擴散模型的方法在資料驅動規劃中顯示出潛力,但缺乏安全保證,因此難以應用於安全關鍵應用。為應對這些挑戰,我們提出了一種新方法,稱為SafeDiffuser,通過使用一類控制屏障函數確保擴散概率模型滿足規範。我們方法的關鍵思想是將所提出的有限時間擴散不變性嵌入到去噪擴散程序中,從而實現可信賴的擴散數據生成。此外,我們證明通過生成模型的有限時間擴散不變性方法不僅保持泛化性能,還在安全數據生成中創造了魯棒性。我們在一系列安全規劃任務上測試我們的方法,包括迷宮路徑生成、四足機器人運動和三維空間操作,結果顯示了相對於基本擴散模型的魯棒性和保證的優勢。
近年來,在自然語言處理和計算機視覺領域取得的成功主要歸功於Transformer。Transformer具有一個主要統一的骨幹,其中的層交替應用前馈和自注意力,以構建深度網絡。在這裡,我們研究了這種設計選擇,發現具有不同層基元排列的更複雜塊可以更有效率。利用這一見解,我們開發了一個名為Brainformer的複雜塊,其中包括各種層,如稀疏閘控前馈層、密集前馈層、注意力層,以及各種形式的層正規化和激活函數。Brainformer在質量和效率方面始終優於最先進的密集和稀疏Transformer。每個標記的激活參數為80億的Brainformer模型展現出2倍更快的訓練收斂速度,以及與其GLaM對應物相比5倍更快的步驟時間。在下游任務評估中,Brainformer在微調時展現出比具有相似激活參數數量的GLaM高3%的SuperGLUE分數。最後,Brainformer在少樣本評估中大幅優於使用類神經架構搜索獲得的Primer密集模型,其計算量與每個標記相似。