ChatPaper.aiChatPaper

Emu3: Predicción del Siguiente Token es Todo lo que Necesitas

Emu3: Next-Token Prediction is All You Need

September 27, 2024
Autores: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI

Resumen

Si bien la predicción del siguiente token se considera un camino prometedor hacia la inteligencia artificial general, ha tenido dificultades para destacar en tareas multimodales, que todavía están dominadas por modelos de difusión (por ejemplo, Difusión Estable) y enfoques composicionales (por ejemplo, CLIP combinado con LLMs). En este documento, presentamos Emu3, un nuevo conjunto de modelos multimodales de última generación entrenados únicamente con predicción del siguiente token. Al tokenizar imágenes, texto y videos en un espacio discreto, entrenamos un único transformador desde cero en una mezcla de secuencias multimodales. Emu3 supera a varios modelos específicos de tareas bien establecidos tanto en tareas de generación como de percepción, superando a modelos emblemáticos como SDXL y LLaVA-1.6, al tiempo que elimina la necesidad de arquitecturas de difusión o composicionales. Emu3 también es capaz de generar videos de alta fidelidad mediante la predicción del siguiente token en una secuencia de video. Simplificamos los diseños de modelos multimodales complejos al converger en un enfoque singular: los tokens, desbloqueando un gran potencial para escalar tanto durante el entrenamiento como en la inferencia. Nuestros resultados demuestran que la predicción del siguiente token es un camino prometedor hacia la construcción de inteligencia multimodal general más allá del lenguaje. Ponemos a disposición del público técnicas clave y modelos para apoyar futuras investigaciones en esta dirección.
English
While next-token prediction is considered a promising path towards artificial general intelligence, it has struggled to excel in multimodal tasks, which are still dominated by diffusion models (e.g., Stable Diffusion) and compositional approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a new suite of state-of-the-art multimodal models trained solely with next-token prediction. By tokenizing images, text, and videos into a discrete space, we train a single transformer from scratch on a mixture of multimodal sequences. Emu3 outperforms several well-established task-specific models in both generation and perception tasks, surpassing flagship models such as SDXL and LLaVA-1.6, while eliminating the need for diffusion or compositional architectures. Emu3 is also capable of generating high-fidelity video via predicting the next token in a video sequence. We simplify complex multimodal model designs by converging on a singular focus: tokens, unlocking great potential for scaling both during training and inference. Our results demonstrate that next-token prediction is a promising path towards building general multimodal intelligence beyond language. We open-source key techniques and models to support further research in this direction.

Summary

AI-Generated Summary

PDF959November 16, 2024