Emu3: 次トークン予測はすべてを必要とする
Emu3: Next-Token Prediction is All You Need
September 27, 2024
著者: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI
要旨
次のトークン予測は人工汎用知能への有望な道筋とされていますが、依然としてマルチモーダルタスクで優れることに苦労しており、これらのタスクは拡散モデル(例:Stable Diffusion)や合成的アプローチ(例:CLIPとLLMを組み合わせたもの)によって主導されています。本論文では、次のトークン予測のみで訓練された最新のマルチモーダルモデル群であるEmu3を紹介します。画像、テキスト、ビデオを離散空間にトークン化し、マルチモーダルシーケンスの混合で1つのトランスフォーマーをゼロから訓練します。Emu3は、生成および知覚タスクの両方でいくつかの確立されたタスク固有モデルを凌駕し、SDXLやLLaVA-1.6などの主力モデルを上回ります。また、拡散や合成的アーキテクチャの必要性を排除しながら、高品質なビデオを生成する能力も備えています。我々は、ビデオシーケンス内の次のトークンを予測することで、複雑なマルチモーダルモデル設計を単一の焦点で収束させ、トークンに焦点を当てることで、訓練および推論の両方でスケーリングの可能性を開放しています。我々の結果は、次のトークン予測が言語を超えた一般的なマルチモーダル知能構築への有望な道筋であることを示しています。この方向性でのさらなる研究を支援するために、主要な技術とモデルをオープンソース化しています。
English
While next-token prediction is considered a promising path towards artificial
general intelligence, it has struggled to excel in multimodal tasks, which are
still dominated by diffusion models (e.g., Stable Diffusion) and compositional
approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a
new suite of state-of-the-art multimodal models trained solely with next-token
prediction. By tokenizing images, text, and videos into a discrete space, we
train a single transformer from scratch on a mixture of multimodal sequences.
Emu3 outperforms several well-established task-specific models in both
generation and perception tasks, surpassing flagship models such as SDXL and
LLaVA-1.6, while eliminating the need for diffusion or compositional
architectures. Emu3 is also capable of generating high-fidelity video via
predicting the next token in a video sequence. We simplify complex multimodal
model designs by converging on a singular focus: tokens, unlocking great
potential for scaling both during training and inference. Our results
demonstrate that next-token prediction is a promising path towards building
general multimodal intelligence beyond language. We open-source key techniques
and models to support further research in this direction.Summary
AI-Generated Summary