Emu3: Previsão do Próximo Token é Tudo que Você Precisa
Emu3: Next-Token Prediction is All You Need
September 27, 2024
Autores: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI
Resumo
Embora a previsão do próximo token seja considerada um caminho promissor em direção à inteligência artificial geral, tem lutado para se destacar em tarefas multimodais, que ainda são dominadas por modelos de difusão (por exemplo, Difusão Estável) e abordagens composicionais (por exemplo, CLIP combinado com LLMs). Neste artigo, apresentamos Emu3, um novo conjunto de modelos multimodais de ponta treinados exclusivamente com previsão do próximo token. Ao tokenizar imagens, texto e vídeos em um espaço discreto, treinamos um único transformer do zero em uma mistura de sequências multimodais. Emu3 supera vários modelos específicos de tarefas bem estabelecidos em tarefas de geração e percepção, ultrapassando modelos principais como SDXL e LLaVA-1.6, eliminando a necessidade de arquiteturas de difusão ou composicionais. Emu3 também é capaz de gerar vídeos de alta fidelidade prevendo o próximo token em uma sequência de vídeo. Simplificamos os projetos de modelos multimodais complexos ao convergir para um foco singular: tokens, desbloqueando um grande potencial para escalar tanto durante o treinamento quanto na inferência. Nossos resultados demonstram que a previsão do próximo token é um caminho promissor para construir inteligência multimodal geral além da linguagem. Disponibilizamos técnicas e modelos-chave de código aberto para apoiar pesquisas adicionais nessa direção.
English
While next-token prediction is considered a promising path towards artificial
general intelligence, it has struggled to excel in multimodal tasks, which are
still dominated by diffusion models (e.g., Stable Diffusion) and compositional
approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a
new suite of state-of-the-art multimodal models trained solely with next-token
prediction. By tokenizing images, text, and videos into a discrete space, we
train a single transformer from scratch on a mixture of multimodal sequences.
Emu3 outperforms several well-established task-specific models in both
generation and perception tasks, surpassing flagship models such as SDXL and
LLaVA-1.6, while eliminating the need for diffusion or compositional
architectures. Emu3 is also capable of generating high-fidelity video via
predicting the next token in a video sequence. We simplify complex multimodal
model designs by converging on a singular focus: tokens, unlocking great
potential for scaling both during training and inference. Our results
demonstrate that next-token prediction is a promising path towards building
general multimodal intelligence beyond language. We open-source key techniques
and models to support further research in this direction.Summary
AI-Generated Summary