Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
多模式生成模型需要統一的方法來處理離散數據(例如文本和代碼)和連續數據(例如圖像、音頻、視頻)。在這項工作中,我們提出了潛在語言建模(Latent Language Modeling,LatentLM),它使用因果Transformer無縫集成連續和離散數據。具體來說,我們採用變分自編碼器(VAE)來表示連續數據為潛在向量,並引入下一令牌擴散,用於自回歸生成這些向量。此外,我們開發了sigma-VAE來應對變異坍縮的挑戰,這對於自回歸建模至關重要。大量實驗證明了LatentLM在各種模態下的有效性。在圖像生成方面,LatentLM在性能和可擴展性上均超越了Diffusion Transformers。當集成到多模式大型語言模型中時,LatentLM提供了一個統一的多模式生成和理解通用接口。實驗結果顯示,在擴大訓練令牌的設置下,LatentLM相較於Transfusion和向量量化模型,實現了良好的性能。在文本轉語音合成方面,LatentLM在語者相似性和韌性方面優於最先進的VALL-E 2模型,同時需要的解碼步驟少了10倍。這些結果確立了LatentLM作為推進大型多模式模型的高效可擴展方法。
Javier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre