每日精選AI研究論文及翻譯
我們介紹了Seed-TTS,這是一系列大規模自回歸文本轉語音(TTS)模型,能夠生成幾乎無法區分的人類語音。Seed-TTS作為語音生成的基礎模型,在語境學習中表現出色,實現了在語者相似度和自然度方面與真實人類語音相匹配的性能,這在客觀和主觀評估中均得到證實。通過微調,我們在這些指標上實現了更高的主觀得分。Seed-TTS在各種語音屬性(如情感)的控制能力方面優越,能夠為野外說話者生成高度表達豐富且多樣化的語音。此外,我們提出了一種用於語音因子分解的自蒸餾方法,以及一種增強模型韌性、語者相似度和可控性的強化學習方法。我們還提出了Seed-TTS模型的非自回歸(NAR)變體,名為Seed-TTS_DiT,採用完全基於擴散的架構。與先前基於NAR的TTS系統不同,Seed-TTS_DiT不依賴於預估的音素持續時間,並通過端到端處理進行語音生成。我們展示了這個變體實現了與基於語言模型的變體相當的性能,並展示了其在語音編輯中的有效性。我們鼓勵讀者在https://bytedancespeech.github.io/seedtts_tech_report上聆聽演示。
我們探討大型語言模型(LLMs)中的不確定性量化,旨在識別在給定查詢時回應的不確定性何時較大。我們同時考慮認識不確定性和隨機不確定性,前者源於對真實情況(例如事實或語言)的缺乏知識,後者源於不可減少的隨機性(例如多個可能的答案)。特別是,我們推導出一個信息理論度量,可以可靠地檢測僅當認識不確定性較大時,模型的輸出是不可靠的。這個條件可以僅基於模型的輸出計算,而這些輸出僅通過一些基於先前回應的特殊迭代提示獲得。這種量化,例如,可以檢測單一和多個答案回應中的幻覺(當認識不確定性高時的情況)。這與許多標準不確定性量化策略(例如將回應的對數似然度閾值化)形成對比,在多個答案情況下無法檢測到幻覺。我們進行了一系列實驗,展示了我們公式的優勢。此外,我們的研究揭示了大型語言模型對特定輸出分配的概率如何可以通過迭代提示放大,這可能具有獨立的興趣。
無論是在線還是離線的RLHF方法,如PPO和DPO,在將AI與人類偏好調整方面取得了巨大成功。儘管它們取得了成功,但現有方法存在一個根本問題,即其最優解取決於任務(即對於分布外(OOD)任務不具韌性)。在這裡,我們通過提出自我改進韌性偏好優化SRPO,來應對這一挑戰,這是一個實用且基於數學原則的離線RLHF框架,完全能夠應對任務變化。SRPO的關鍵思想是將從人類偏好中學習的問題形式化為一個自我改進過程,可以通過一個最小-最大目標來數學表達,該目標旨在以對抗方式聯合優化自我改進策略和生成策略。這個優化問題的解與訓練任務無關,因此對其變化具有韌性。然後,我們展示了這個目標可以重新表達為一個非對抗性的離線損失形式,可以在規模上使用標準監督優化技術進行優化,而無需獎勵模型和在線推斷。我們展示了SRPO在AI勝率(WR)對人類(GOLD)完成的效果。特別是,當在OOD XSUM數據集上評估SRPO時,經過5次自我修訂後,其勝率達到90%,明顯優於著名的DPO,超出15%。
文字轉視頻生成在質量和多樣性方面落後於文字轉圖像合成,這是由於時空建模的複雜性和有限的視頻文字數據集。本文提出了I4VGen,一種無需訓練並可即插即用的視頻擴散推理框架,通過利用強大的圖像技術來增強文字轉視頻生成。具體來說,在文字-圖像-視頻的基礎上,I4VGen將文字轉視頻生成分解為兩個階段:錨點圖像合成和錨點圖像引導的視頻合成。相應地,採用了一個精心設計的生成-選擇管道來實現具有視覺逼真性和語義忠實性的錨點圖像,並且還將一種創新的噪聲不變視頻分數蒸餾採樣方法融入其中,將圖像動畫化為動態視頻,然後進行視頻再生過程以完善視頻。這種推理策略有效地緩解了普遍存在的非零終端信噪比問題。廣泛的評估顯示,I4VGen不僅能夠生成具有更高視覺逼真度和文本忠實度的視頻,還能夠無縫集成到現有的圖像-視頻擴散模型中,從而提高整體視頻質量。
在生成圖像的擴散模型中,主要關注的軸線是圖像品質、結果變化的量以及結果與給定條件的對齊程度,例如類別標籤或文本提示。流行的無分類器指導方法使用無條件模型來引導有條件模型,從而同時實現更好的提示對齊和更高品質的圖像,但代價是減少變化。這些效應似乎固有地交織在一起,因此難以控制。我們發現令人驚訝的是,通過使用模型本身的較小、訓練較少的版本來引導生成,可以獲得對圖像品質的解耦控制,而不會犧牲變化量。這對於 ImageNet 生成帶來了顯著的改進,在使用公開可用網絡時,64x64 的 FID 為 1.01,512x512 的 FID 為 1.25,創下了紀錄。此外,這種方法也適用於無條件擴散模型,顯著提高了它們的品質。
人工智慧(AI)領域近期的進展主要是由規模化推動的。在機器人領域,規模化受限於無法取得龐大的機器人數據集。我們主張使用逼真的物理模擬作為擴展環境、任務和機器人學習方法的手段。我們提出了RoboCasa,這是一個用於在日常環境中訓練通用型機器人的大規模模擬框架。RoboCasa具有逼真且多樣化的場景,重點放在廚房環境上。我們提供了超過150個物件類別的數千個3D資產,以及數十個可互動的家具和家電。我們利用生成式AI工具豐富了模擬的逼真度和多樣性,例如從文本生成3D模型的物件資產,以及從文本生成圖像的環境紋理。我們設計了一套包括由大型語言模型引導生成的複合任務在內的100個任務,以進行系統性評估。為了促進學習,我們提供高質量的人類示範,並整合自動生成軌跡的方法,以極大地擴展我們的數據集,減輕人力負擔。我們的實驗表明,使用合成生成的機器人數據進行大規模模仿學習呈現明顯的規模化趨勢,並展示了在實際任務中利用模擬數據的巨大潛力。視頻和開源代碼可在https://robocasa.ai/ 上找到。
在肖像影片生成領域中,使用單張圖像生成肖像影片的做法日益普遍。一種常見的方法是利用生成模型來增強適配器以進行受控生成。然而,控制信號(例如文本、音訊、參考圖像、姿勢、深度圖等)的強度可能有所不同。在這些信號中,較弱的條件通常因較強的條件的干擾而難以發揮作用,這構成了平衡這些條件的挑戰。在我們的肖像影片生成工作中,我們發現音訊信號特別薄弱,常常被臉部姿勢和參考圖像等較強信號所掩蓋。然而,直接使用薄弱信號進行訓練往往會導致收斂困難。為解決這個問題,我們提出了V-Express,一種通過漸進訓練和條件丟棄操作來平衡不同控制信號的簡單方法。我們的方法逐漸實現了對較弱條件的有效控制,從而實現同時考慮臉部姿勢、參考圖像和音訊的生成能力。實驗結果表明,我們的方法能夠有效生成由音訊控制的肖像影片。此外,我們提供了一種潛在解決方案,以同時有效地利用不同強度的條件。
最近,視頻擴散模型已成為表現豐富的生成工具,可供一般用戶輕鬆創建高質量視頻內容。然而,這些模型通常無法精確控制視頻生成的相機姿勢,限制了電影語言和用戶控制的表現。為解決此問題,我們引入了CamCo,該系統允許對圖像到視頻生成進行精細的相機姿勢控制。我們使用 Pl\"ucker 坐標精確地對預先訓練的圖像到視頻生成器進行相機姿勢輸入的參數化。為增強所生成視頻的三維一致性,我們在每個注意力塊中集成了一個射影關注模塊,強制實施對特徵圖的射影約束。此外,我們通過結構從運動算法估計的相機姿勢在真實世界視頻上對 CamCo 進行微調,以更好地合成物體運動。我們的實驗表明,與先前模型相比,CamCo 顯著提高了三維一致性和相機控制能力,同時有效地生成可信的物體運動。項目頁面:https://ir1d.github.io/CamCo/