每日精選AI研究論文及翻譯
我們介紹 Kandinsky 3.0,一個基於潛在擴散的大規模文本到圖像生成模型,延續了一系列文本到圖像的 Kandinsky 模型,並反映了我們在實現更高質量和真實感的圖像生成方面的進展。與之前的 Kandinsky 2.x 版本相比,Kandinsky 3.0 利用了兩倍大的 U-Net 主幹,十倍大的文本編碼器,並刪除了擴散映射。我們描述了模型的架構、數據收集程序、訓練技術和用戶交互的生產系統。我們專注於關鍵組件,這些組件是我們通過大量實驗確定的,與其他模型相比對提高我們模型質量影響最顯著。通過我們的並排比較,Kandinsky 在文本理解方面變得更好,並在特定領域上運作更好。項目頁面:https://ai-forever.github.io/Kandinsky-3
在文本轉語音(TTS)合成中,擴散模型已經取得了令人期待的生成質量。然而,由於預定義的數據到噪聲擴散過程,它們的先驗分佈被限制在一個嘈雜的表示中,這提供了很少有關生成目標的信息。在這項工作中,我們提出了一種新穎的 TTS 系統,名為 Bridge-TTS,首次嘗試用乾淨且確定性的先驗替代已建立的基於擴散的 TTS 方法中的嘈雜高斯先驗,這提供了目標的強結構信息。具體來說,我們利用從文本輸入獲得的潛在表示作為我們的先驗,並在它與地面真實的 mel-頻譜圖之間建立一個完全可追踪的薛定輪橋,從而實現數據到數據的過程。此外,我們公式的可追踪性和靈活性使我們能夠在實驗中研究設計空間,例如噪聲時間表,並開發隨機和確定性取樣器。在 LJ-Speech 數據集上的實驗結果顯示了我們的方法在合成質量和取樣效率方面的有效性,明顯優於我們的擴散對應物 Grad-TTS 在 50 步 / 1000 步合成以及強快速 TTS 模型在少步驟情況下的表現。項目頁面:https://bridge-tts.github.io/
對比式語言-圖像預訓練(CLIP)在跨越多樣任務中從圖像中提取有價值的內容資訊方面扮演著至關重要的角色。它對齊文本和視覺模式以理解整個圖像,包括所有細節,甚至那些與特定任務無關的細節。然而,為了更細緻地理解和控制編輯圖像,專注於特定感興趣區域變得至關重要,這些區域可以由人類或感知模型指示為點、遮罩或框。為了滿足這些需求,我們引入了Alpha-CLIP,這是CLIP的增強版本,具有輔助的 alpha 通道,用於建議關注的區域,並通過構建的數百萬個 RGBA 區域-文本對進行微調。Alpha-CLIP 不僅保留了 CLIP 的視覺識別能力,還能精確控制對圖像內容的強調。它在各種任務中展現出效果,包括但不限於開放世界識別、多模態大型語言模型以及有條件的 2D / 3D 生成。它具有成為圖像相關任務的多功能工具的潛力。
程式碼提供了建構複雜程式和進行精確計算的一般語法結構,當與程式碼解譯器配對時--我們假設語言模型(LMs)可以利用編寫程式碼來改善思維鏈推理,不僅適用於邏輯和算術任務,還適用於語言任務(特別是那些混合兩者的任務)。例如,考慮提示一個LM編寫程式碼來計算它在一篇文章中檢測到諷刺的次數:LM可能會難以編寫一個可以由解譯器執行的"檢測諷刺(字串)"實現(處理邊界情況將是不可逾越的)。然而,如果LM不僅用於編寫程式碼,還用於有選擇性地"模擬"解譯器,生成"檢測諷刺(字串)"和其他程式碼行的預期輸出(例如,解譯器無法編譯的部分),LM仍然可以產生有效的解決方案。在這項工作中,我們提出了程式碼鏈(CoT),這是一個簡單但出乎意料地有效的擴展,可以改善LM基於程式碼的推理。其關鍵思想是鼓勵LM將程式中的語言子任務格式化為靈活的偽代碼,使編譯器可以明確捕捉未定義的行為並交由LM模擬(作為"LMulator")。實驗表明,程式碼鏈在各種基準測試中優於思維鏈和其他基準;在BIG-Bench Hard上,程式碼鏈達到84%,比思維鏈提高了12%。CoT適用於大型和小型模型,並擴大了LM可以正確回答的推理問題範圍,透過"以程式碼思考"。項目網頁:https://chain-of-code.github.io/。
在輕量稀疏視角設置下,創建高保真度的3D頭像一直是研究的熱點,但仍然存在著巨大挑戰。本文提出了高保真度頭像建模的高斯頭像方法,使用可控的3D高斯模型來表示。我們優化了中性的3D高斯模型,並通過完全學習的基於MLP的變形場來捕捉複雜的表情。這兩部分互相補充,因此我們的方法可以在確保表情準確性的同時模擬細緻的動態細節。此外,我們設計了一個基於隱式SDF和深度行進四面體的幾何引導初始化策略,以確保訓練過程的穩定性和收斂性。實驗表明,我們的方法優於其他最先進的稀疏視角方法,在2K分辨率下甚至在夸張的表情下實現了超高保真度的渲染質量。
影片中的運動主要包括由攝影機移動引起的攝影機運動和由物體移動導致的物體運動。精確控制攝影機和物體運動對於影片生成至關重要。然而,現有研究要麼主要專注於一種類型的運動,要麼沒有清楚區分這兩種類型,限制了它們的控制能力和多樣性。因此,本文提出了MotionCtrl,這是一個統一且靈活的運動控制器,旨在有效且獨立地控制攝影機和物體運動以進行影片生成。MotionCtrl的架構和訓練策略經過精心設計,考慮了攝影機運動、物體運動和不完美的訓練數據的固有特性。與先前的方法相比,MotionCtrl具有三個主要優勢:1)它有效且獨立地控制攝影機運動和物體運動,實現更精細的運動控制,促進兩種類型運動的靈活和多樣組合。2)其運動條件由攝影機姿勢和軌跡確定,這些條件與外觀無關,對生成的影片中的物體外觀或形狀影響最小。3)它是一個相對通用的模型,一旦訓練完畢,可以適應各種攝影機姿勢和軌跡。已進行了廣泛的定性和定量實驗,以證明MotionCtrl相對於現有方法的優越性。
本文對大型語言模型(LLMs)進行了深入分析,專注於LLaMA,這是自然語言處理中一個知名的開源基礎模型。我們並未通過評估LLaMA的生成輸出來評估它,而是設計了多重選擇任務,以探究其在高階任務(如推理和計算)中的內在理解。我們水平地檢視模型,比較不同大小,垂直地評估不同層次。我們根據設計的探測任務揭示了幾個關鍵且不尋常的發現:(1)水平方面,擴大模型大小幾乎不能自動帶來額外知識或計算能力。相反,它可以增強推理能力,特別是在數學問題解決方面,有助於減少幻覺,但僅在特定大小閾值之上;(2)在垂直分析中,LLaMA的較低層缺乏實質算術和事實知識,展示了邏輯思維、多語言和認知能力,而頂層則擁有大部分計算能力和現實世界知識。
最近,在照片逼真的人類建模和渲染方面取得了巨大的進展。然而,高效地渲染逼真的人類表現並將其整合到光柵化流程中仍然具有挑戰性。在本文中,我們提出了HiFi4G,一種明確且緊湊的基於高斯的方法,用於從密集影片中渲染高保真的人類表現。我們的核心想法是將3D高斯表示法與非剛性跟踪結合,實現緊湊且適合壓縮的表示法。我們首先提出了一種雙圖機制來獲得運動先驗,使用粗略變形圖進行有效初始化,並使用精細的高斯圖來強制實施後續約束。然後,我們利用一種具有自適應時空正則化器的4D高斯優化方案,有效平衡非剛性先驗和高斯更新。我們還提出了一種伴隨的壓縮方案,通過殘差補償實現在各種平台上的身臨其境體驗。它實現了約25倍的顯著壓縮率,每幀存儲不到2MB。大量實驗證明了我們方法的有效性,在優化速度、渲染質量和存儲開銷方面明顯優於現有方法。
我們提出了Context Diffusion,這是一個基於擴散的框架,使得圖像生成模型能夠從呈現在上下文中的視覺範例中學習。最近的研究處理了這種在上下文中學習的圖像生成,其中一個查詢圖像與上下文範例和文本提示一起提供。然而,當提示不存在時,生成的圖像的質量和保真度會下降,這表明這些模型無法真正從視覺上下文中學習。為了解決這個問題,我們提出了一個新穎的框架,它將視覺上下文的編碼與保留查詢圖像的結構分開。這將使我們的模型能夠從視覺上下文和文本提示中學習,也能夠從其中任何一個中學習。此外,我們使我們的模型能夠處理少樣本設置,以有效地應對多樣的在上下文中學習情境。我們的實驗和用戶研究表明,與對應模型相比,Context Diffusion在領域內和領域外任務中表現出色,從而在圖像質量和保真度方面實現了整體增強。
大型語言模型(LLMs)如ChatGPT因其通用語言理解能力而受到廣泛關注,特別是它們生成高質量文本或電腦代碼的能力。對許多行業來說,LLMs是一個無價的工具,可以加快工作速度並提高工作質量。在本文中,我們討論它們在幫助專業數學家方面的潛力。我們首先對所有現代語言模型中使用的Transformer模型進行數學描述。基於最近的研究,我們概述最佳實踐和潛在問題,並報告語言模型的數學能力。最後,我們闡明了LLMs改變數學家工作方式的潛力。
基於文本的影片編輯近來引起相當大的興趣,可用於改變風格或以類似結構替換物件。此外,我們展示了形狀、大小、位置、運動等屬性也可在影片中進行編輯。我們的關鍵見解是,特定內部特徵的關鍵幀轉換(例如物件的邊緣地圖或人體姿勢),可以輕鬆地傳播到其他幀以提供生成指導。因此,我們提出了MagicStick,一種可控制的影片編輯方法,通過利用對提取的內部控制信號進行轉換來編輯影片屬性。具體而言,為了保持外觀,我們將預訓練的圖像擴散模型和ControlNet擴展到時間維度,並訓練低秩適應(LORA)層以適應特定場景。然後,在編輯時,我們執行反演和編輯框架。不同的是,在反演和生成中引入了微調的ControlNet,以提供注意力引導,並使用所提出的空間注意力圖之間的注意力混音。儘管簡潔,我們的方法是第一種展示從預先訓練的文本到圖像模型進行影片屬性編輯的方法。我們在我們的統一框架內展示了許多示例的實驗。我們還將其與具有形狀感知的基於文本的編輯和手工製作的運動影片生成進行比較,展示了我們優於先前作品的時間一致性和編輯能力。代碼和模型將公開提供。
我們介紹了一個新任務,即生成插圖說明,即針對用戶需求定制的視覺說明。我們確定了這個任務獨有的期望條件,並通過一系列自動和人工評估指標對其進行了形式化,旨在衡量生成物的有效性、一致性和功效。我們結合了大型語言模型(LLMs)的強大能力,與強大的文本到圖像生成擴散模型,提出了一種名為StackedDiffusion的簡單方法,它可以根據文本生成這種插圖說明。結果表明,該模型在性能上明顯優於基準方法和最先進的多模態LLMs;在30%的情況下,用戶甚至更喜歡它而不是人工生成的文章。最值得注意的是,它實現了各種新穎且令人興奮的應用,遠遠超出了網頁上的靜態文章所能提供的範疇,例如根據用戶個人情況提供包含中間步驟和圖片的個性化說明。
本文提出了一種稱為「Representation-Conditioned image Generation (RCG)」的簡單而有效的圖像生成框架,它在無類別條件的圖像生成方面設立了新的基準。RCG不會根據任何人類標註進行條件設置。相反,它根據從圖像分佈中使用預先訓練的編碼器映射出的自監督表示分佈進行條件設置。在生成過程中,RCG從這種表示分佈中採樣,使用表示擴散模型 (RDM),並利用像素生成器來生成條件於所採樣表示的圖像像素。這種設計在生成過程中提供了重要的指導,從而實現高質量的圖像生成。在 ImageNet 256x256 上進行測試,RCG 實現了 Frechet Inception Distance (FID) 為 3.31 和 Inception Score (IS) 為 253.4。這些結果不僅顯著改進了無類別條件圖像生成的最新技術水平,還與當前領先的有類別條件圖像生成方法相媲美,彌合了這兩個任務之間長期存在的性能差距。代碼可在 https://github.com/LTH14/rcg 獲得。
利用預先訓練的2D大規模生成模型,最近的研究能夠從單張野外圖像生成高質量的新視角。然而,由於缺乏來自多個視角的信息,這些研究在生成可控新視角時遇到困難。本文提出了DreamComposer,一個靈活且可擴展的框架,可以通過注入多視角條件來增強現有的視角感知擴散模型。具體而言,DreamComposer首先使用視角感知的3D提升模組從多個視角獲取物體的3D表示。然後,它使用多視角特徵融合模組從3D表示中呈現目標視角的潛在特徵。最後,從多視角輸入中提取的目標視角特徵被注入到預先訓練的擴散模型中。實驗表明,DreamComposer與最先進的擴散模型相容,用於零樣本新視角合成,進一步增強其生成具有多視角條件的高保真新視角圖像,以便進行可控的3D物體重建和其他各種應用。
我們介紹了高效單調多頭注意力(EMMA),這是一種最先進的同步翻譯模型,具有數值穩定且無偏的單調對齊估計。此外,我們提出了改進的訓練和推斷策略,包括從離線翻譯模型同時微調以及減少單調對齊變異。實驗結果表明,所提出的模型在西班牙語和英語翻譯任務的同步語音轉文本翻譯中達到了最先進的性能。
從自我中心的觀點生成人類日常動作的指導圖像是實現有效技能傳遞的關鍵步驟。本文介紹了一個新穎的問題--自我中心動作幀生成。其目標是合成動作幀,條件是用戶提示問題和捕捉用戶環境的輸入自我中心圖像。值得注意的是,現有的自我中心數據集缺乏描述動作執行細節的詳細標註。此外,基於擴散的圖像操作模型無法控制動作在相應自我中心圖像像素空間內的狀態變化。為此,我們通過視覺指導調整來微調視覺大型語言模型(VLLM),以編纂豐富的動作描述來應對我們提出的問題。此外,我們提出使用VLLM的圖像和文本嵌入來進行額外條件設置,實現學習自我中心(LEGO)動作幀生成。我們在兩個自我中心數據集--Ego4D和Epic-Kitchens上驗證了我們提出的模型。我們的實驗在定量和定性評估中顯示出明顯的改進,優於先前的圖像操作模型。我們還進行了詳細的消融研究和分析,以提供有關我們方法的見解。
神經輻射場提供了最先進的視圖合成品質,但渲染速度較慢。其中一個原因是它們使用體積渲染,因此在渲染時需要每條射線許多樣本(和模型查詢)。儘管這種表示方法靈活且易於優化,但大多數現實世界的物體可以更有效地用表面而非體積來建模,因此每條射線需要的樣本數量要少得多。這一觀察結果激發了表面表示法(如符號距離函數)等方面的相當大進展,但這些方法可能難以模擬半透明和薄結構。我們提出了一種方法,HybridNeRF,充分利用了這兩種表示法的優勢,將大多數物體呈現為表面,同時對(通常)少量具挑戰性的區域進行體積建模。我們對HybridNeRF進行了評估,包括挑戰性的Eyeful Tower數據集以及其他常用的視圖合成數據集。與最先進的基線方法進行比較,包括最近的光柵化方法,我們將錯誤率提高了15-30%,同時實現了虛擬現實分辨率(2Kx2K)的實時幀率(至少36 FPS)。