Emu3 : La prédiction du prochain jeton est tout ce dont vous avez besoin
Emu3: Next-Token Prediction is All You Need
September 27, 2024
Auteurs: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI
Résumé
Alors que la prédiction du jeton suivant est considérée comme une voie prometteuse vers l'intelligence artificielle générale, elle a du mal à exceller dans les tâches multimodales, qui sont encore dominées par des modèles de diffusion (par exemple, Diffusion Stable) et des approches compositionnelles (par exemple, CLIP combiné avec des LLM). Dans cet article, nous présentons Emu3, une nouvelle suite de modèles multimodaux de pointe entraînés uniquement avec la prédiction du jeton suivant. En tokenisant les images, le texte et les vidéos dans un espace discret, nous entraînons un seul transformateur à partir de zéro sur un mélange de séquences multimodales. Emu3 surpasse plusieurs modèles spécifiques à des tâches bien établis à la fois dans la génération et la perception, dépassant des modèles phares tels que SDXL et LLaVA-1.6, tout en éliminant le besoin de architectures de diffusion ou compositionnelles. Emu3 est également capable de générer des vidéos haute fidélité en prédisant le jeton suivant dans une séquence vidéo. Nous simplifions les conceptions de modèles multimodaux complexes en nous concentrant sur un seul objectif : les jetons, débloquant un grand potentiel pour l'extension à la fois pendant l'entraînement et l'inférence. Nos résultats démontrent que la prédiction du jeton suivant est une voie prometteuse pour construire une intelligence multimodale générale au-delà du langage. Nous mettons en open source des techniques et des modèles clés pour soutenir de futures recherches dans cette direction.
English
While next-token prediction is considered a promising path towards artificial
general intelligence, it has struggled to excel in multimodal tasks, which are
still dominated by diffusion models (e.g., Stable Diffusion) and compositional
approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a
new suite of state-of-the-art multimodal models trained solely with next-token
prediction. By tokenizing images, text, and videos into a discrete space, we
train a single transformer from scratch on a mixture of multimodal sequences.
Emu3 outperforms several well-established task-specific models in both
generation and perception tasks, surpassing flagship models such as SDXL and
LLaVA-1.6, while eliminating the need for diffusion or compositional
architectures. Emu3 is also capable of generating high-fidelity video via
predicting the next token in a video sequence. We simplify complex multimodal
model designs by converging on a singular focus: tokens, unlocking great
potential for scaling both during training and inference. Our results
demonstrate that next-token prediction is a promising path towards building
general multimodal intelligence beyond language. We open-source key techniques
and models to support further research in this direction.Summary
AI-Generated Summary