Emu3.5: Los modelos multimodales nativos son aprendices del mundo
Emu3.5: Native Multimodal Models are World Learners
October 30, 2025
Autores: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI
Resumen
Presentamos Emu3.5, un modelo del mundo multimodal a gran escala que predice nativamente el siguiente estado a través de la visión y el lenguaje. Emu3.5 se pre-entrena de extremo a extremo con un objetivo unificado de predicción del siguiente token en un corpus de datos intercalados de visión y lenguaje que contiene más de 10 billones de tokens, derivados principalmente de fotogramas secuenciales y transcripciones de vídeos de internet. El modelo acepta de forma natural entradas intercaladas de visión y lenguaje y genera salidas intercaladas de visión y lenguaje. Emu3.5 se post-entrena adicionalmente con aprendizaje por refuerzo a gran escala para mejorar el razonamiento y la generación multimodal. Para mejorar la eficiencia de la inferencia, proponemos la Adaptación por Difusión Discreta (DiDA), que convierte la decodificación token por token en una predicción paralela bidireccional, acelerando la inferencia por imagen aproximadamente 20 veces sin sacrificar el rendimiento. Emu3.5 exhibe fuertes capacidades multimodales nativas, que incluyen generación de visión y lenguaje de largo horizonte, generación de cualquier cosa a imagen (X2I) y generación compleja de imágenes ricas en texto. También exhibe habilidades generalizables de modelado del mundo, permitiendo la exploración del mundo espaciotemporalmente consistente y la manipulación corporizada en mundo abierto a través de diversos escenarios y tareas. Para comparar, Emu3.5 logra un rendimiento comparable a Gemini 2.5 Flash Image (Nano Banana) en tareas de generación y edición de imágenes y demuestra resultados superiores en un conjunto de tareas de generación intercalada. Liberamos Emu3.5 como código abierto en https://github.com/baaivision/Emu3.5 para apoyar la investigación comunitaria.
English
We introduce Emu3.5, a large-scale multimodal world model that natively
predicts the next state across vision and language. Emu3.5 is pre-trained
end-to-end with a unified next-token prediction objective on a corpus of
vision-language interleaved data containing over 10 trillion tokens, primarily
derived from sequential frames and transcripts of internet videos. The model
naturally accepts interleaved vision-language inputs and generates interleaved
vision-language outputs. Emu3.5 is further post-trained with large-scale
reinforcement learning to enhance multimodal reasoning and generation. To
improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA),
which converts token-by-token decoding into bidirectional parallel prediction,
accelerating per-image inference by about 20x without sacrificing performance.
Emu3.5 exhibits strong native multimodal capabilities, including long-horizon
vision-language generation, any-to-image (X2I) generation, and complex
text-rich image generation. It also exhibits generalizable world-modeling
abilities, enabling spatiotemporally consistent world exploration and
open-world embodied manipulation across diverse scenarios and tasks. For
comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image
(Nano Banana) on image generation and editing tasks and demonstrates superior
results on a suite of interleaved generation tasks. We open-source Emu3.5 at
https://github.com/baaivision/Emu3.5 to support community research.