次元モーダル潜在言語モデリングと次トークン拡散
Multimodal Latent Language Modeling with Next-Token Diffusion
December 11, 2024
著者: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
要旨
マルチモーダル生成モデルには、離散データ(例:テキストやコード)と連続データ(例:画像、音声、ビデオ)の両方を扱うための統一されたアプローチが必要です。本研究では、因果的Transformerを用いて連続データと離散データをシームレスに統合するLatent Language Modeling(LatentLM)を提案します。具体的には、変分オートエンコーダ(VAE)を用いて連続データを潜在ベクトルとして表現し、これらのベクトルの自己回帰生成のために次トークン拡散を導入します。さらに、自己回帰モデリングにおいて重要な分散収束の課題に対処するために、sigma-VAEを開発します。幅広い実験により、LatentLMの効果がさまざまなモダリティで示されています。画像生成では、LatentLMは性能とスケーラビリティの両方でDiffusion Transformersを上回ります。マルチモーダル大規模言語モデルに統合された場合、LatentLMはマルチモーダル生成と理解を統一する汎用インターフェースを提供します。実験結果は、トレーニングトークンのスケーリングアップ設定において、Transfusionやベクトル量子化モデルに比べてLatentLMが有利なパフォーマンスを達成することを示しています。テキストから音声合成において、LatentLMはスピーカーの類似性と堅牢性において最先端のVALL-E 2モデルを上回り、デコーディングステップが10倍少なくて済みます。これらの結果は、LatentLMが大規模なマルチモーダルモデルを推進するための非常に効果的でスケーラブルなアプローチであることを確立しています。
English
Multimodal generative models require a unified approach to handle both
discrete data (e.g., text and code) and continuous data (e.g., image, audio,
video). In this work, we propose Latent Language Modeling (LatentLM), which
seamlessly integrates continuous and discrete data using causal Transformers.
Specifically, we employ a variational autoencoder (VAE) to represent continuous
data as latent vectors and introduce next-token diffusion for autoregressive
generation of these vectors. Additionally, we develop sigma-VAE to address
the challenges of variance collapse, which is crucial for autoregressive
modeling. Extensive experiments demonstrate the effectiveness of LatentLM
across various modalities. In image generation, LatentLM surpasses Diffusion
Transformers in both performance and scalability. When integrated into
multimodal large language models, LatentLM provides a general-purpose interface
that unifies multimodal generation and understanding. Experimental results show
that LatentLM achieves favorable performance compared to Transfusion and vector
quantized models in the setting of scaling up training tokens. In
text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2
model in speaker similarity and robustness, while requiring 10x fewer decoding
steps. The results establish LatentLM as a highly effective and scalable
approach to advance large multimodal models.Summary
AI-Generated Summary