每日精選AI研究論文及翻譯
個性化已成為生成式人工智慧領域中一個重要的方面,使得能夠在不同情境和風格中合成個人,同時保持對其身份的高保真度。然而,個性化過程在時間和記憶體需求方面存在固有挑戰。微調每個個性化模型需要大量 GPU 時間投資,並且以每個主題存儲一個個性化模型在存儲容量方面可能會有要求。為了克服這些挑戰,我們提出了HyperDreamBooth-一個能夠從一張人物圖像中高效生成少量個性化權重的超網絡。通過將這些權重組合到擴散模型中,再結合快速微調,HyperDreamBooth 能夠在各種情境和風格中生成一個人的臉,同時保留對多樣風格和語義修改的關鍵知識。我們的方法在大約 20 秒內實現了對臉部的個性化,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,僅使用一張參考圖像,具有與 DreamBooth 相同的質量和風格多樣性。同時,我們的方法生成的模型比普通 DreamBooth 模型小 10000 倍。項目頁面:https://hyperdreambooth.github.io
文本到圖像(T2I)個性化技術允許使用者通過結合自己在自然語言提示中的視覺概念來引導創意圖像生成過程。最近,基於編碼器的技術已經成為T2I個性化的一種新有效方法,減少了對多個圖像和長時間訓練的需求。然而,大多數現有的編碼器僅限於單一類別領域,這限制了它們處理多樣概念的能力。在這項工作中,我們提出了一種不需要任何專門數據集或有關個性化概念的先前信息的通用方法。我們引入了一種新穎的基於對比的正則化技術,以保持對目標概念特徵的高保真度,同時使預測的嵌入保持接近潛在空間的可編輯區域,通過將預測的標記推向其最近的現有CLIP標記。我們的實驗結果證明了我們方法的有效性,並展示了學習到的標記比未經正則化模型預測的標記更具語義。這導致更好的表示,實現了最先進的性能,同時比以前的方法更靈活。
為視覺敘事生成影片可能是一個繁瑣且複雜的過程,通常需要進行現場拍攝或圖形動畫渲染。為了避開這些挑戰,我們的主要想法是利用現有豐富的影片片段,通過自定義它們的外觀來綜合生成一部連貫的敘事影片。我們通過開發包含兩個功能模塊的框架來實現這一目標:(i)運動結構檢索,提供由查詢文本描述的所需場景或運動上下文的影片候選項,以及(ii)結構引導的文本到影片合成,根據運動結構和文本提示生成與情節對齊的影片。對於第一個模塊,我們利用現成的影片檢索系統並提取影片深度作為運動結構。對於第二個模塊,我們提出了一個可控的影片生成模型,可以靈活控制結構和角色。通過遵循結構引導和外觀指令來合成影片。為了確保片段之間的視覺一致性,我們提出了一種有效的概念個性化方法,通過文本提示來指定所需的角色身份。廣泛的實驗表明,我們的方法在各種現有基準線上表現出顯著優勢。
本文提出了一種新方法,用於改善大規模預訓練語言模型(LLMs)生成輸出的質量和一致性。自一致性已被證明是一種有效的方法,適用於具有固定答案提示的情況,選擇得票數最高的答案。本文介紹了一個廣義的自一致性框架,擴展了其適用範圍,超越了具有固定答案的問題。通過大量模擬,我們展示了我們的方法能夠穩定地從一組候選生成中恢復最優或接近最優的生成。我們還提出了輕量級無參數相似性函數,即使沒有訪問令牌日誌概率,也在代碼生成、自動正規化和摘要任務中顯示出顯著且一致的改進。我們的方法帶來了極小的計算開銷,無需輔助的重新排名模型或對現有模型進行修改。