每日精選AI研究論文及翻譯
最近在使用擴散模型進行個性化圖像生成方面取得了顯著進展。然而,在開放領域和非微調個性化圖像生成領域的發展進展相對緩慢。在本文中,我們提出了Subject-Diffusion,一種新穎的開放領域個性化圖像生成模型,除了不需要測試時微調外,還只需要一張參考圖像來支持在任何領域中生成單一或多個主題的個性化。首先,我們構建了一個自動數據標記工具,並使用LAION-Aesthetics數據集構建了一個包含7600萬圖像及其相應主題檢測邊界框、分割遮罩和文本描述的大規模數據集。其次,我們設計了一個新的統一框架,通過結合文本和圖像語義,並納入粗略位置和細粒度參考圖像控制,以最大程度地提高主題的忠實度和泛化性。此外,我們還採用了一種注意力控制機制來支持多主題生成。廣泛的定性和定量結果表明,我們的方法在單一、多個和人類定制圖像生成方面優於其他最先進的框架。請參閱我們的項目頁面:https://oppo-mente-lab.github.io/subject_diffusion/
神經輻射場(Neural Radiance Fields,NeRF)有潛力成為媒體的重要表現形式。由於訓練 NeRF 從未是一項輕鬆的任務,保護其模型版權應該是一項優先考量。本文通過分析可能的版權保護解決方案的優缺點,提出通過將 NeRF 中的原始顏色表示形式替換為帶水印的顏色表示形式來保護 NeRF 模型的版權。然後,設計了一種抗失真渲染方案,以確保在 NeRF 的 2D 渲染中能夠抽取出強韌的訊息。我們提出的方法可以直接保護 NeRF 模型的版權,同時在與其他可選解決方案相比時保持高渲染質量和位準確性。
隨著最近神經輻射場(NeRF)的進展,實現了高保真度的3D人臉重建和新視角合成,其操控也成為3D視覺中的重要任務。然而,現有的操控方法需要大量人力,例如使用者提供的語義遮罩和手動屬性搜索,不適合非專家使用者。相反,我們的方法旨在僅需一個文本即可操控使用NeRF重建的人臉。為此,我們首先訓練一個場景操控器,即一個潛在代碼條件變形NeRF,通過動態場景控制人臉變形使用潛在代碼。然而,用單個潛在代碼表示場景變形對於合成不同實例中觀察到的局部變形是不利的。因此,我們提出的位置條件錨定合成器(PAC)學習用空間變化的潛在代碼來表示操控的場景。它們與場景操控器的渲染然後被優化以在CLIP嵌入空間中對目標文本產生高餘弦相似度,以進行文本驅動的操控。據我們所知,我們的方法是第一個處理使用NeRF重建的人臉的文本驅動操控。大量結果、比較和消融研究證明了我們方法的有效性。
儘管擴散模型在圖像生成方面取得了顯著的成功,但緩慢的採樣仍然是一個持續存在的問題。為了加速採樣過程,先前的研究將擴散採樣重新定義為一個 ODE/SDE,並引入了高階數值方法。然而,這些方法通常會產生發散的人工瑕疵,特別是在採樣步驟較少時,這限制了可實現的加速度。在本文中,我們研究了這些瑕疵的潛在原因,並提出這些方法的小穩定區域可能是主要原因。為了解決這個問題,我們提出了兩種新技術。第一種技術涉及將 Heavy Ball(HB)動量,一種用於改善優化的眾所周知技術,納入現有的擴散數值方法中,以擴大它們的穩定區域。我們還證明了結果方法具有一階收斂。第二種技術,稱為廣義 Heavy Ball(GHVB),構建了一種新的高階方法,提供了在準確性和瑕疵抑制之間的可變折衷。實驗結果表明,我們的技術在減少瑕疵和提高圖像質量方面非常有效,在像素基礎和潛在基礎的低步採樣的擴散模型上超越了最先進的擴散求解器。我們的研究為未來擴散工作的數值方法設計提供了新的見解。