每日精選AI研究論文及翻譯
零-shot 文字轉語音旨在合成具有未見過語音提示的聲音。先前的大規模多說話者 TTS 模型已成功實現此目標,並在 10 秒內完成了錄製。然而,大多數這類模型僅設計用於利用短語音提示。短語音提示中的有限信息顯著阻礙了精細身份模仿的表現。本文介紹 Mega-TTS 2,一個通用的零-shot 多說話者 TTS 模型,能夠合成未見過說話者的任意長度提示的語音。具體來說,我們 1) 設計了一個多參考音色編碼器,從多個參考語音中提取音色信息;2) 並訓練了一個具有任意長度語音提示的韻律語言模型;通過這些設計,我們的模型適用於不同長度的提示,擴展了零-shot 文字轉語音的語音品質上限。除了任意長度提示,我們引入了任意來源提示,利用從多個 P-LLM 輸出中衍生的概率來產生富有表現力和可控的韻律。此外,我們提出了一個音素級自回歸持續時間模型,將上下文學習能力引入持續時間建模。實驗表明,我們的方法不僅能夠合成具有短提示的未見過說話者的保留身份的語音,還能夠在較長的語音提示下實現改進的性能。音頻樣本可在 https://mega-tts.github.io/mega2_demo/ 找到。
大型語言模型(LLMs)展示了它們能夠學習上下文,使它們能夠基於少量輸入-輸出範例執行各種任務。然而,上下文學習的效果在很大程度上取決於所選範例的質量。在本文中,我們提出了一個新穎的框架,通過迭代訓練密集檢索器,以識別LLMs的高質量上下文範例。我們的框架首先訓練一個基於LLM反饋的獎勵模型,用於評估候選範例的質量,然後進行知識蒸餾,訓練基於雙編碼器的密集檢索器。我們在30個任務套件上的實驗表明,我們的框架顯著提升了上下文學習的性能。此外,我們展示了我們的框架在訓練期間對未見任務的泛化能力。深入分析顯示,我們的模型通過檢索具有相似模式的範例來提高性能,並且這種收益在不同大小的LLMs之間是一致的。
在這份工作中,我們介紹了一個自監督特徵表示學習框架 DreamTeacher,該框架利用生成網絡來預訓練下游圖像主幹。我們提出將從訓練過的生成模型中提煉知識,注入已經為特定感知任務進行良好工程設計的標準圖像主幹中。我們探討了兩種知識提煉方式:1) 將學習到的生成特徵提煉到目標圖像主幹上,作為對於在大型標記數據集(如 ImageNet)上預訓練這些主幹的替代方法;以及 2) 將從生成網絡和任務頭獲得的標籤提煉到目標主幹的 logits 上。我們對多個生成模型、密集預測基準和多種預訓練方案進行了廣泛分析。我們在實驗中發現,我們的 DreamTeacher 在各方面明顯優於現有的自監督表示學習方法。使用 DreamTeacher 進行無監督的 ImageNet 預訓練,比在下游數據集上進行 ImageNet 分類預訓練帶來了顯著的改善,展示了生成模型,特別是擴散生成模型,作為在大型、多樣數據集上進行表示學習的有前途方法,而無需手動標註。
我們解決了在場景中生成與物體互動的逼真3D人體動作的問題。我們的關鍵想法是創建一個附加到特定物體的神經互動場,該場輸出給定人體姿勢的情況下到有效互動流形的距離。這種互動場引導對以物體為條件的人體運動擴散模型的採樣,從而鼓勵合理的接觸和功能語義。為了支持與稀缺數據的互動,我們提出了一個自動合成數據管道。為此,我們使用從有限運動捕捉數據中提取的特定互動錨點姿勢來種子化預先訓練的運動模型,該模型對人體運動基礎有先驗知識。使用我們在生成的合成數據上訓練的引導擴散模型,我們綜合了坐姿和舉起多個物體的逼真動作,勝過其他方法,無論是在動作質量還是成功動作完成方面。我們將我們的框架稱為NIFTY:用於軌跡合成的神經互動場。