Emu3: Predicción del Siguiente Token es Todo lo que NecesitasEmu3: Next-Token Prediction is All You Need
Si bien la predicción del siguiente token se considera un camino prometedor hacia la inteligencia artificial general, ha tenido dificultades para destacar en tareas multimodales, que todavía están dominadas por modelos de difusión (por ejemplo, Difusión Estable) y enfoques composicionales (por ejemplo, CLIP combinado con LLMs). En este documento, presentamos Emu3, un nuevo conjunto de modelos multimodales de última generación entrenados únicamente con predicción del siguiente token. Al tokenizar imágenes, texto y videos en un espacio discreto, entrenamos un único transformador desde cero en una mezcla de secuencias multimodales. Emu3 supera a varios modelos específicos de tareas bien establecidos tanto en tareas de generación como de percepción, superando a modelos emblemáticos como SDXL y LLaVA-1.6, al tiempo que elimina la necesidad de arquitecturas de difusión o composicionales. Emu3 también es capaz de generar videos de alta fidelidad mediante la predicción del siguiente token en una secuencia de video. Simplificamos los diseños de modelos multimodales complejos al converger en un enfoque singular: los tokens, desbloqueando un gran potencial para escalar tanto durante el entrenamiento como en la inferencia. Nuestros resultados demuestran que la predicción del siguiente token es un camino prometedor hacia la construcción de inteligencia multimodal general más allá del lenguaje. Ponemos a disposición del público técnicas clave y modelos para apoyar futuras investigaciones en esta dirección.