Emu3: La Predizione del Prossimo Token è Tutto ciò di cui Hai Bisogno
Emu3: Next-Token Prediction is All You Need
September 27, 2024
Autori: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI
Abstract
Sebbene la previsione del token successivo sia considerata una via promettente verso l'intelligenza artificiale generale, ha faticato a eccellere nelle attività multimodali, ancora dominate dai modelli a diffusione (ad esempio, Diffusione Stabile) e dagli approcci compositi (ad esempio, CLIP combinato con LLM). In questo articolo, presentiamo Emu3, una nuova serie di modelli multimodali all'avanguardia addestrati esclusivamente con la previsione del token successivo. Tokenizzando immagini, testi e video in uno spazio discreto, addestriamo un singolo trasformatore da zero su una miscela di sequenze multimodali. Emu3 supera diversi modelli specifici per compiti ben consolidati sia nei compiti di generazione che di percezione, superando modelli di punta come SDXL e LLaVA-1.6, eliminando al contempo la necessità di architetture di diffusione o compositive. Emu3 è in grado anche di generare video ad alta fedeltà prevedendo il token successivo in una sequenza video. Semplifichiamo i progetti di modelli multimodali complessi concentrandoci su un singolo obiettivo: i token, sbloccando un grande potenziale per la scalabilità sia durante l'addestramento che nell'inferenza. I nostri risultati dimostrano che la previsione del token successivo è una via promettente per costruire un'intelligenza multimodale generale al di là del linguaggio. Mettiamo a disposizione in open source tecniche e modelli chiave per sostenere ulteriori ricerche in questa direzione.
English
While next-token prediction is considered a promising path towards artificial
general intelligence, it has struggled to excel in multimodal tasks, which are
still dominated by diffusion models (e.g., Stable Diffusion) and compositional
approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a
new suite of state-of-the-art multimodal models trained solely with next-token
prediction. By tokenizing images, text, and videos into a discrete space, we
train a single transformer from scratch on a mixture of multimodal sequences.
Emu3 outperforms several well-established task-specific models in both
generation and perception tasks, surpassing flagship models such as SDXL and
LLaVA-1.6, while eliminating the need for diffusion or compositional
architectures. Emu3 is also capable of generating high-fidelity video via
predicting the next token in a video sequence. We simplify complex multimodal
model designs by converging on a singular focus: tokens, unlocking great
potential for scaling both during training and inference. Our results
demonstrate that next-token prediction is a promising path towards building
general multimodal intelligence beyond language. We open-source key techniques
and models to support further research in this direction.Summary
AI-Generated Summary