ChatPaper.aiChatPaper

Emu3: Die Vorhersage des nächsten Tokens ist alles, was Sie brauchen

Emu3: Next-Token Prediction is All You Need

September 27, 2024
Autoren: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI

Zusammenfassung

Obwohl die Vorhersage des nächsten Tokens als vielversprechender Weg zur künstlichen allgemeinen Intelligenz gilt, hat sie Schwierigkeiten, sich in multimodalen Aufgaben zu behaupten, die immer noch von Diffusionsmodellen (z. B. Stabile Diffusion) und kompositorischen Ansätzen (z. B. CLIP in Kombination mit LLMs) dominiert werden. In diesem Paper stellen wir Emu3 vor, eine neue Suite von hochmodernen multimodalen Modellen, die ausschließlich mit der Vorhersage des nächsten Tokens trainiert wurden. Indem wir Bilder, Texte und Videos in einen diskreten Raum tokenisieren, trainieren wir einen einzigen Transformer von Grund auf an einer Mischung von multimodalen Sequenzen. Emu3 übertrifft mehrere etablierte aufgabenspezifische Modelle sowohl in Generierungs- als auch in Wahrnehmungsaufgaben und übertrifft Flaggschiffmodelle wie SDXL und LLaVA-1.6, während die Notwendigkeit von Diffusions- oder kompositorischen Architekturen eliminiert wird. Emu3 ist auch in der Lage, hochwertige Videos zu generieren, indem der nächste Token in einer Videosequenz vorhergesagt wird. Wir vereinfachen komplexe multimodale Modellentwürfe, indem wir uns auf einen einzigen Fokus konzentrieren: Tokens, was großes Potenzial für das Skalieren sowohl während des Trainings als auch bei der Inferenz freisetzt. Unsere Ergebnisse zeigen, dass die Vorhersage des nächsten Tokens ein vielversprechender Weg ist, um eine allgemeine multimodale Intelligenz jenseits der Sprache aufzubauen. Wir stellen Schlüsseltechniken und Modelle als Open Source zur Verfügung, um weitere Forschung in diese Richtung zu unterstützen.
English
While next-token prediction is considered a promising path towards artificial general intelligence, it has struggled to excel in multimodal tasks, which are still dominated by diffusion models (e.g., Stable Diffusion) and compositional approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a new suite of state-of-the-art multimodal models trained solely with next-token prediction. By tokenizing images, text, and videos into a discrete space, we train a single transformer from scratch on a mixture of multimodal sequences. Emu3 outperforms several well-established task-specific models in both generation and perception tasks, surpassing flagship models such as SDXL and LLaVA-1.6, while eliminating the need for diffusion or compositional architectures. Emu3 is also capable of generating high-fidelity video via predicting the next token in a video sequence. We simplify complex multimodal model designs by converging on a singular focus: tokens, unlocking great potential for scaling both during training and inference. Our results demonstrate that next-token prediction is a promising path towards building general multimodal intelligence beyond language. We open-source key techniques and models to support further research in this direction.

Summary

AI-Generated Summary

PDF959November 16, 2024