每日精選AI研究論文及翻譯
在這份工作中,我們提出了MagicDance,一種基於擴散的模型,用於在具有挑戰性的人類舞蹈影片上進行2D人體動作和面部表情轉移。具體而言,我們旨在生成任何目標身份驅動的人類舞蹈影片,同時保持身份不變,並由新穎的姿勢序列驅動。為此,我們提出了一種兩階段訓練策略,以解開人類動作和外觀(例如面部表情、膚色和服裝)之間的關係,包括對同一數據集的人類舞蹈姿勢進行外觀控制塊的預訓練,以及對外觀-姿勢-關節控制塊進行微調。我們的新穎設計實現了對外觀的強大控制,同時保持上半身、面部特徵甚至背景的時間一致性。該模型還能夠很好地泛化到未見過的人類身份和複雜的運動序列,無需通過利用圖像擴散模型的先前知識對具有多樣人類特徵的額外數據進行微調。此外,所提出的模型易於使用,可被視為Stable Diffusion的一個插件模塊/擴展。我們還展示了該模型在零樣本2D動畫生成方面的能力,不僅實現了從一個身份到另一個身份的外觀轉移,還允許僅通過姿勢輸入實現類似卡通的風格化。大量實驗證明了我們在TikTok數據集上的優異性能。
基於大型語言模型(LLM)的語音合成已被廣泛應用於零-shot語音合成。然而,它們需要大規模的數據,並具有與先前的自回歸語音模型相同的限制,包括推理速度慢和缺乏魯棒性。本文提出了HierSpeech++,一種快速而強大的零-shot語音合成器,用於文本轉語音(TTS)和語音轉換(VC)。我們驗證了分層語音合成框架可以顯著提高合成語音的魯棒性和表現力。此外,我們在零-shot語音合成情境中,顯著改善了合成語音的自然度和說話者相似性。對於文本轉語音,我們採用了文本轉向量框架,該框架基於文本表示和韻律提示生成自監督語音表示和F0表示。然後,HierSpeech++從生成的向量、F0和語音提示生成語音。我們進一步引入了一個從16 kHz到48 kHz的高效語音超分辨率框架。實驗結果表明,分層變分自編碼器可以成為一個強大的零-shot語音合成器,因為它優於基於LLM和擴散的模型。此外,我們實現了第一個達到人類水平質量的零-shot語音合成。音頻樣本和源代碼可在https://github.com/sh-lee-prml/HierSpeechpp 上找到。
我們提出了一種方法,可以從3D高斯濺射中精確且極快速地提取網格。高斯濺射最近變得非常流行,因為它提供了逼真的渲染效果,而且訓練速度顯著快於神經光子反射(NeRFs)。然而,從數百萬個微小的3D高斯濺射中提取網格是具有挑戰性的,因為這些高斯濺射在優化後往往是無序的,且迄今為止還沒有提出相應的方法。我們的第一個關鍵貢獻是引入一個正則化項,鼓勵高斯濺射與場景表面良好對齊。然後,我們介紹了一種利用這種對齊性的方法,通過泊松重建從高斯濺射中提取網格,這種方法快速、可擴展,並且保留細節,與通常用於從神經SDF中提取網格的Marching Cubes算法形成對比。最後,我們引入了一種可選的細化策略,將高斯濺射綁定到網格表面,並通過高斯濺射渲染同時優化這些高斯濺射和網格。這使得可以通過操縱網格而不是高斯濺射本身,使用傳統軟件輕鬆編輯、雕塑、綁定、動畫製作、合成和重新燈光高斯濺射。使用我們的方法,可以在幾分鐘內獲得這樣一個可編輯的網格,而與神經SDF的最新方法相比,後者需要數小時,同時提供更好的渲染質量。
儘管最近在文本轉圖像擴散模型方面取得了令人印象深刻的進展,但要獲得高質量的圖像通常需要人類迅速進行工程處理,而這些人類已經在使用它們方面具有專業知識。在這項工作中,我們提出了NeuroPrompts,一個自適應框架,可自動增強用戶的提示,以改善文本轉圖像模型生成的質量。我們的框架利用受過訓練的語言模型進行限制文本解碼,該模型已經適應生成與人類提示工程師生成的提示類似的提示。這種方法可以實現更高質量的文本轉圖像生成,並通過約束集規範提供用戶對風格特徵的控制。我們通過使用Stable Diffusion創建了一個交互式應用程序,用於提示增強和圖像生成,展示了我們框架的實用性。此外,我們利用一個大型數據集進行實驗,該數據集包含人工生成的文本轉圖像提示,並展示了我們的方法自動生成的增強提示能夠產生更優質的圖像。我們將我們的代碼、一個屏幕錄像演示和NeuroPrompts的實時演示實例公開提供。
我們提出了一種方法來創建可解釋的概念滑塊,從擴散模型的圖像生成中實現對屬性的精確控制。我們的方法識別了與一個概念相對應的低秩參數方向,同時最小化與其他屬性的干擾。通過使用少量提示或示例圖像來創建滑塊;因此,滑塊方向可以為文本或視覺概念創建。概念滑塊是即插即用的:它們可以高效地組合並連續調節,實現對圖像生成的精確控制。在與先前編輯技術進行定量實驗比較時,我們的滑塊展示出更強的有針對性編輯,並具有更低的干擾。我們展示了用於天氣、年齡、風格和表情的滑塊,以及滑塊組合。我們展示了如何使用滑塊從StyleGAN轉移潛在特徵,以直觀地編輯對於文本描述困難的視覺概念。我們還發現我們的方法可以幫助解決Stable Diffusion XL中持續的質量問題,包括修復物體變形和修復扭曲的手部。我們的代碼、數據和訓練有素的滑塊可在https://sliders.baulab.info/獲得。
我們介紹了 PhysGaussian,一種新方法,它無縫地將基於物理的牛頓動力學與 3D 高斯函數結合,以實現高質量的新型運動合成。採用自定義的材料點方法(MPM),我們的方法豐富了 3D 高斯核函數,具有具有物理意義的運動變形和機械應力屬性,所有這些都是根據連續力學原則演變而來。我們方法的一個明確特徵是物理模擬和視覺渲染之間的無縫集成:兩個組件都使用相同的 3D 高斯核函數作為它們的離散表示。這消除了三角形/四面體網格化、鋪設立方體、"籠狀網格"或任何其他幾何嵌入的必要性,突顯了"所見即所模擬(WS^2)"原則。我們的方法展示了在各種材料上的卓越多功能性,包括彈性實體、金屬、非牛頓流體和顆粒材料,展示了其在創建具有新視角和運動的多樣視覺內容方面的強大能力。我們的項目頁面位於:https://xpandora.github.io/PhysGaussian/
我們提出了一個無姿態大型重建模型(PF-LRM),可從少量未定位圖像中重建3D物體,即使視覺重疊很少,同時在單個A100 GPU上約1.3秒內估計相對相機姿勢。PF-LRM是一種高度可擴展的方法,利用自我注意力塊在3D物體代幣和2D圖像代幣之間交換信息;我們為每個視圖預測一個粗略的點雲,然後使用可微分的透視n點(PnP)求解器來獲得相機姿勢。當在約1百萬個物體的大量多視圖定位數據上進行訓練時,PF-LRM表現出強大的跨數據集泛化能力,在各種未見評估數據集上在姿勢預測準確性和3D重建質量方面遠遠優於基線方法。我們還展示了我們模型在下游文本/圖像到3D任務中的應用性,具有快速前向推理。我們的項目網站位於:https://totoro97.github.io/pf-lrm。
最近在文本到視頻生成方面取得的進展已經利用擴散模型的能力來創建視覺上引人注目的內容,並根據文本提示進行條件設置。然而,它們通常遇到高計算成本,並且經常難以生成具有連貫物理運動的視頻。為了應對這些問題,我們提出了GPT4Motion,這是一個無需訓練的框架,利用了大型語言模型(如GPT)的規劃能力,Blender的物理模擬強度,以及文本到圖像擴散模型的出色圖像生成能力,以增強視頻合成的質量。具體來說,GPT4Motion利用GPT-4生成基於用戶文本提示的Blender腳本,該腳本指揮Blender內置的物理引擎來製作涵蓋幀間連貫物理運動的基本場景組件。然後,這些組件被輸入到穩定擴散模型中,以生成與文本提示相一致的視頻。對包括剛性物體下落和碰撞、布料垂墜和擺動以及液體流動在內的三種基本物理運動場景的實驗結果表明,GPT4Motion能夠高效生成高質量視頻,保持運動連貫性和實體一致性。GPT4Motion為文本到視頻研究提供了新的見解,提高了其質量並拓寬了未來探索的範圍。