Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
マルチモーダル生成モデルには、離散データ(例:テキストやコード)と連続データ(例:画像、音声、ビデオ)の両方を扱うための統一されたアプローチが必要です。本研究では、因果的Transformerを用いて連続データと離散データをシームレスに統合するLatent Language Modeling(LatentLM)を提案します。具体的には、変分オートエンコーダ(VAE)を用いて連続データを潜在ベクトルとして表現し、これらのベクトルの自己回帰生成のために次トークン拡散を導入します。さらに、自己回帰モデリングにおいて重要な分散収束の課題に対処するために、sigma-VAEを開発します。幅広い実験により、LatentLMの効果がさまざまなモダリティで示されています。画像生成では、LatentLMは性能とスケーラビリティの両方でDiffusion Transformersを上回ります。マルチモーダル大規模言語モデルに統合された場合、LatentLMはマルチモーダル生成と理解を統一する汎用インターフェースを提供します。実験結果は、トレーニングトークンのスケーリングアップ設定において、Transfusionやベクトル量子化モデルに比べてLatentLMが有利なパフォーマンスを達成することを示しています。テキストから音声合成において、LatentLMはスピーカーの類似性と堅牢性において最先端のVALL-E 2モデルを上回り、デコーディングステップが10倍少なくて済みます。これらの結果は、LatentLMが大規模なマルチモーダルモデルを推進するための非常に効果的でスケーラブルなアプローチであることを確立しています。
Javier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre