Emu3: Volgende-Token Voorspelling is Alles Wat Je Nodig Hebt
Emu3: Next-Token Prediction is All You Need
September 27, 2024
Auteurs: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI
Samenvatting
Hoewel voorspelling van het volgende token wordt beschouwd als een veelbelovende weg naar kunstmatige algemene intelligentie, heeft het moeite gehad om uit te blinken in multimodale taken, die nog steeds gedomineerd worden door diffusiemodellen (bijv. Stabiele Diffusie) en compositionele benaderingen (bijv. CLIP gecombineerd met LLM's). In dit artikel introduceren we Emu3, een nieuwe reeks toonaangevende multimodale modellen die uitsluitend zijn getraind met voorspelling van het volgende token. Door afbeeldingen, tekst en video's te tokenizen in een discrete ruimte, trainen we een enkele transformer vanaf nul op een mix van multimodale sequenties. Emu3 presteert beter dan verschillende gevestigde taakspecifieke modellen in zowel generatie- als perceptietaken, waarbij vlaggenschipmodellen zoals SDXL en LLaVA-1.6 worden overtroffen, terwijl de noodzaak voor diffusie- of compositionele architecturen wordt geëlimineerd. Emu3 is ook in staat om video's van hoge kwaliteit te genereren door het volgende token in een videosequentie te voorspellen. We vereenvoudigen complexe multimodale modelontwerpen door ons te concentreren op een enkelvoudige focus: tokens, waardoor het grote potentieel wordt ontsloten voor schaalvergroting zowel tijdens training als inferentie. Onze resultaten tonen aan dat voorspelling van het volgende token een veelbelovende weg is naar het opbouwen van algemene multimodale intelligentie voorbij taal. We stellen belangrijke technieken en modellen open-source om verder onderzoek in deze richting te ondersteunen.
English
While next-token prediction is considered a promising path towards artificial
general intelligence, it has struggled to excel in multimodal tasks, which are
still dominated by diffusion models (e.g., Stable Diffusion) and compositional
approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a
new suite of state-of-the-art multimodal models trained solely with next-token
prediction. By tokenizing images, text, and videos into a discrete space, we
train a single transformer from scratch on a mixture of multimodal sequences.
Emu3 outperforms several well-established task-specific models in both
generation and perception tasks, surpassing flagship models such as SDXL and
LLaVA-1.6, while eliminating the need for diffusion or compositional
architectures. Emu3 is also capable of generating high-fidelity video via
predicting the next token in a video sequence. We simplify complex multimodal
model designs by converging on a singular focus: tokens, unlocking great
potential for scaling both during training and inference. Our results
demonstrate that next-token prediction is a promising path towards building
general multimodal intelligence beyond language. We open-source key techniques
and models to support further research in this direction.Summary
AI-Generated Summary