Transfusion: 単一のマルチモーダルモデルによる次のトークンの予測と画像の拡散Transfusion: Predict the Next Token and Diffuse Images with One
Multi-Modal Model
本論文では、離散データと連続データを扱うマルチモーダルモデルを訓練するための手法「Transfusion」を提案する。Transfusionは、言語モデリングの損失関数(次のトークン予測)と拡散モデルを組み合わせ、混合モダリティのシーケンスに対して単一のトランスフォーマーを訓練する。テキストと画像データの混合データセットを用いて、最大7Bパラメータの複数のTransfusionモデルをスクラッチから事前学習し、単一モダリティおよびクロスモダリティのベンチマークに対するスケーリング則を確立した。実験結果から、Transfusionは画像を量子化して離散画像トークン上で言語モデルを訓練する手法よりも大幅に優れたスケーリング特性を示すことがわかった。さらに、モダリティ固有のエンコーディング層とデコーディング層を導入することで、Transfusionモデルの性能をさらに向上させ、各画像をわずか16パッチに圧縮することも可能である。また、Transfusionの手法を7Bパラメータと2Tのマルチモーダルトークンまでスケールアップすることで、拡散モデルや言語モデルと同等の品質で画像とテキストを生成できるモデルを実現し、両者の利点を享受できることを実証した。