Emu3: 次トークン予測はすべてを必要とするEmu3: Next-Token Prediction is All You Need
次のトークン予測は人工汎用知能への有望な道筋とされていますが、依然としてマルチモーダルタスクで優れることに苦労しており、これらのタスクは拡散モデル(例:Stable Diffusion)や合成的アプローチ(例:CLIPとLLMを組み合わせたもの)によって主導されています。本論文では、次のトークン予測のみで訓練された最新のマルチモーダルモデル群であるEmu3を紹介します。画像、テキスト、ビデオを離散空間にトークン化し、マルチモーダルシーケンスの混合で1つのトランスフォーマーをゼロから訓練します。Emu3は、生成および知覚タスクの両方でいくつかの確立されたタスク固有モデルを凌駕し、SDXLやLLaVA-1.6などの主力モデルを上回ります。また、拡散や合成的アーキテクチャの必要性を排除しながら、高品質なビデオを生成する能力も備えています。我々は、ビデオシーケンス内の次のトークンを予測することで、複雑なマルチモーダルモデル設計を単一の焦点で収束させ、トークンに焦点を当てることで、訓練および推論の両方でスケーリングの可能性を開放しています。我々の結果は、次のトークン予測が言語を超えた一般的なマルチモーダル知能構築への有望な道筋であることを示しています。この方向性でのさらなる研究を支援するために、主要な技術とモデルをオープンソース化しています。