每日精選AI研究論文及翻譯
我們提出了aMUSEd,一個基於MUSE的開源、輕量級遮罩圖像模型(MIM),用於文本到圖像生成。aMUSEd只使用了MUSE 10% 的參數,專注於快速圖像生成。我們認為相對於潛在擴散,MIM 在文本到圖像生成中尚未得到充分探索。與潛在擴散相比,MIM 需要更少的推論步驟並且更具可解釋性。此外,MIM 可以進行微調以僅使用單張圖像學習額外風格。我們希望通過展示其在大規模文本到圖像生成中的有效性並釋出可重現的訓練代碼,鼓勵進一步探索MIM。我們還釋出兩個模型的檢查點,可以直接生成256x256和512x512分辨率的圖像。
我們提出了一個框架,用於生成栩栩如生的全身逼真化身,根據雙向互動的對話動態進行手勢。給定語音音頻,我們輸出個人的多種手勢運動可能性,包括臉部、身體和手部。我們方法的關鍵在於將向量量化的樣本多樣性優勢與通過擴散獲得的高頻細節相結合,以生成更具動態和表現力的運動。我們使用高度逼真的化身來視覺化生成的運動,這些化身可以表達手勢中的關鍵細微差異(例如冷笑和假笑)。為了促進這一研究領域,我們介紹了一個首創的多視角對話數據集,可以進行逼真的重建。實驗表明,我們的模型生成了適當且多樣的手勢,優於僅使用擴散或向量量化的方法。此外,我們的感知評估凸顯了逼真性(相對於網格)在準確評估對話手勢中微妙運動細節方面的重要性。代碼和數據集在線提供。
我們提出了圖像雕塑(Image Sculpting)這一新框架,通過融合3D幾何和圖形學工具,來編輯2D圖像。這種方法與現有方法有顯著不同,現有方法僅限於2D空間,通常依賴文字說明,導致模糊和受限控制。圖像雕塑將2D物體轉換為3D,使得可以直接與其3D幾何進行交互。在後期編輯中,這些物體重新渲染為2D,與原始圖像融合,通過粗到精的增強過程產生高保真度結果。該框架支持精確、可量化和物理合理的編輯選項,如姿勢編輯、旋轉、平移、3D合成、雕刻和串行添加。這標誌著將生成模型的創造自由與圖形管線的精確性相結合的初步步驟。
最近在影像擴散模型方面的進展已顯著改善高質量影像的生成。結合神經輻射場(NeRFs),它們為3D生成帶來了新機遇。然而,大多數生成式3D方法都以物件為中心,將它們應用於編輯現有的照片逼真場景並不簡單。我們提出了SIGNeRF,一種新穎的方法,用於快速且可控的NeRF場景編輯和場景整合物件生成。一種新的生成式更新策略確保了編輯後影像的3D一致性,而無需迭代優化。我們發現,基於深度條件的擴散模型本質上具有通過請求圖像網格而不是單個視圖來生成3D一致視圖的能力。基於這些見解,我們引入了一個修改後影像的多視圖參考表。我們的方法根據參考表一致地更新影像集合,並在一次操作中通過新生成的影像集合來完善原始NeRF。通過利用影像擴散模型的深度條件機制,我們可以對編輯的空間位置進行精細控制,並通過選定區域或外部網格來強制形狀引導。
基於擴散的歌聲轉換(SVC)方法已經取得了顯著的表現,產生出與目標音色高度相似的自然音頻。然而,迭代取樣過程導致推理速度緩慢,因此加速變得至關重要。在本文中,我們提出了基於一致性模型的CoMoSVC SVC方法,旨在實現高質量生成和高速取樣。首先專門為SVC設計了一個基於擴散的教師模型,並進一步在自一致性特性下提煉出學生模型,以實現一步取樣。在單個NVIDIA GTX4090 GPU上的實驗顯示,雖然CoMoSVC的推理速度顯著快於最先進的基於擴散的SVC系統,但在主觀和客觀指標下,仍實現了可比或優越的轉換性能。音頻樣本和代碼可在https://comosvc.github.io/上獲得。
並行文本轉語音模型已被廣泛應用於實時語音合成,與傳統的自回歸模型相比,它們提供更多可控性和更快的合成過程。儘管並行模型在許多方面都有優勢,但由於其完全並行的架構(如變壓器),它們自然地不適用於增量式合成。在這項工作中,我們提出了增量式 FastPitch,這是一種新型的 FastPitch 變體,通過改進基於塊的 FFT 塊架構、使用受限接受域的塊注意力遮罩進行訓練,以及使用固定大小的過去模型狀態進行推斷,能夠增量地生成高質量的 Mel 塊。實驗結果表明,我們的提案能夠產生與並行 FastPitch 相當的語音質量,同時具有顯著較低的延遲,這使得實時語音應用的響應時間甚至更短。
單反相機可以通過調整鏡頭距離或更換鏡頭類型來實現多個變焦級別。然而,由於空間限制,智能手機無法使用這些技術。大多數智能手機製造商採用混合變焦系統:通常是在低變焦級別下使用廣角(W)鏡頭和在高變焦級別下使用望遠(T)鏡頭。為了模擬W和T之間的變焦級別,這些系統會從W裁剪並數字上取樣圖像,導致重要細節的損失。在本文中,我們提出了一種在移動設備上進行混合變焦超分辨率的高效系統,該系統捕獲同步的W和T拍攝對並利用機器學習模型將T的細節對齊並轉移到W。我們進一步開發了一種適應性混合方法,考慮了景深不匹配、場景遮擋、流不確定性和對齊錯誤。為了最小化領域差異,我們設計了一個雙手機相機架,用於捕獲真實世界的輸入和標準答案進行監督式訓練。我們的方法在移動平台上在500毫秒內生成一張1200萬像素的圖像,在真實場景的廣泛評估中與最先進的方法相比表現優異。