Transfusion: 単一のマルチモーダルモデルによる次のトークンの予測と画像の拡散
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
August 20, 2024
著者: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy
cs.AI
要旨
本論文では、離散データと連続データを扱うマルチモーダルモデルを訓練するための手法「Transfusion」を提案する。Transfusionは、言語モデリングの損失関数(次のトークン予測)と拡散モデルを組み合わせ、混合モダリティのシーケンスに対して単一のトランスフォーマーを訓練する。テキストと画像データの混合データセットを用いて、最大7Bパラメータの複数のTransfusionモデルをスクラッチから事前学習し、単一モダリティおよびクロスモダリティのベンチマークに対するスケーリング則を確立した。実験結果から、Transfusionは画像を量子化して離散画像トークン上で言語モデルを訓練する手法よりも大幅に優れたスケーリング特性を示すことがわかった。さらに、モダリティ固有のエンコーディング層とデコーディング層を導入することで、Transfusionモデルの性能をさらに向上させ、各画像をわずか16パッチに圧縮することも可能である。また、Transfusionの手法を7Bパラメータと2Tのマルチモーダルトークンまでスケールアップすることで、拡散モデルや言語モデルと同等の品質で画像とテキストを生成できるモデルを実現し、両者の利点を享受できることを実証した。
English
We introduce Transfusion, a recipe for training a multi-modal model over
discrete and continuous data. Transfusion combines the language modeling loss
function (next token prediction) with diffusion to train a single transformer
over mixed-modality sequences. We pretrain multiple Transfusion models up to 7B
parameters from scratch on a mixture of text and image data, establishing
scaling laws with respect to a variety of uni- and cross-modal benchmarks. Our
experiments show that Transfusion scales significantly better than quantizing
images and training a language model over discrete image tokens. By introducing
modality-specific encoding and decoding layers, we can further improve the
performance of Transfusion models, and even compress each image to just 16
patches. We further demonstrate that scaling our Transfusion recipe to 7B
parameters and 2T multi-modal tokens produces a model that can generate images
and text on a par with similar scale diffusion models and language models,
reaping the benefits of both worlds.Summary
AI-Generated Summary