ChatPaper.aiChatPaper

次元モーダル潜在言語モデリングと次トークン拡散

Multimodal Latent Language Modeling with Next-Token Diffusion

December 11, 2024
著者: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI

要旨

マルチモーダル生成モデルには、離散データ(例:テキストやコード)と連続データ(例:画像、音声、ビデオ)の両方を扱うための統一されたアプローチが必要です。本研究では、因果的Transformerを用いて連続データと離散データをシームレスに統合するLatent Language Modeling(LatentLM)を提案します。具体的には、変分オートエンコーダ(VAE)を用いて連続データを潜在ベクトルとして表現し、これらのベクトルの自己回帰生成のために次トークン拡散を導入します。さらに、自己回帰モデリングにおいて重要な分散収束の課題に対処するために、sigma-VAEを開発します。幅広い実験により、LatentLMの効果がさまざまなモダリティで示されています。画像生成では、LatentLMは性能とスケーラビリティの両方でDiffusion Transformersを上回ります。マルチモーダル大規模言語モデルに統合された場合、LatentLMはマルチモーダル生成と理解を統一する汎用インターフェースを提供します。実験結果は、トレーニングトークンのスケーリングアップ設定において、Transfusionやベクトル量子化モデルに比べてLatentLMが有利なパフォーマンスを達成することを示しています。テキストから音声合成において、LatentLMはスピーカーの類似性と堅牢性において最先端のVALL-E 2モデルを上回り、デコーディングステップが10倍少なくて済みます。これらの結果は、LatentLMが大規模なマルチモーダルモデルを推進するための非常に効果的でスケーラブルなアプローチであることを確立しています。
English
Multimodal generative models require a unified approach to handle both discrete data (e.g., text and code) and continuous data (e.g., image, audio, video). In this work, we propose Latent Language Modeling (LatentLM), which seamlessly integrates continuous and discrete data using causal Transformers. Specifically, we employ a variational autoencoder (VAE) to represent continuous data as latent vectors and introduce next-token diffusion for autoregressive generation of these vectors. Additionally, we develop sigma-VAE to address the challenges of variance collapse, which is crucial for autoregressive modeling. Extensive experiments demonstrate the effectiveness of LatentLM across various modalities. In image generation, LatentLM surpasses Diffusion Transformers in both performance and scalability. When integrated into multimodal large language models, LatentLM provides a general-purpose interface that unifies multimodal generation and understanding. Experimental results show that LatentLM achieves favorable performance compared to Transfusion and vector quantized models in the setting of scaling up training tokens. In text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2 model in speaker similarity and robustness, while requiring 10x fewer decoding steps. The results establish LatentLM as a highly effective and scalable approach to advance large multimodal models.

Summary

AI-Generated Summary

PDF452December 13, 2024