Emu3.5: Modelos Multimodais Nativos são Aprendizes do Mundo
Emu3.5: Native Multimodal Models are World Learners
October 30, 2025
Autores: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI
Resumo
Apresentamos o Emu3.5, um modelo de mundo multimodal de grande escala que prevê nativamente o próximo estado através da visão e da linguagem. O Emu3.5 é pré-treinado de forma ponta a ponta com um objetivo unificado de previsão do próximo token em um corpus de dados intercalados de visão e linguagem contendo mais de 10 trilhões de tokens, derivados principalmente de quadros sequenciais e transcrições de vídeos da internet. O modelo aceita naturalmente entradas intercaladas de visão e linguagem e gera saídas intercaladas de visão e linguagem. O Emu3.5 é posteriormente pós-treinado com aprendizado por reforço em larga escala para aprimorar o raciocínio e a geração multimodal. Para melhorar a eficiência da inferência, propomos a Adaptação por Difusão Discreta (DiDA), que converte a decodificação token por token em uma previsão paralela bidirecional, acelerando a inferência por imagem em cerca de 20 vezes sem sacrificar o desempenho. O Emu3.5 exibe fortes capacidades multimodais nativas, incluindo geração de visão e linguagem de longo horizonte, geração de qualquer coisa para imagem (X2I) e geração complexa de imagens ricas em texto. Ele também exibe habilidades generalizáveis de modelagem de mundo, permitindo a exploração do mundo com consistência espaço-temporal e a manipulação corporificada em mundo aberto em diversos cenários e tarefas. Para comparação, o Emu3.5 atinge um desempenho comparável ao Gemini 2.5 Flash Image (Nano Banana) em tarefas de geração e edição de imagens e demonstra resultados superiores em um conjunto de tarefas de geração intercalada. Disponibilizamos o código-fonte do Emu3.5 em https://github.com/baaivision/Emu3.5 para apoiar a pesquisa da comunidade.
English
We introduce Emu3.5, a large-scale multimodal world model that natively
predicts the next state across vision and language. Emu3.5 is pre-trained
end-to-end with a unified next-token prediction objective on a corpus of
vision-language interleaved data containing over 10 trillion tokens, primarily
derived from sequential frames and transcripts of internet videos. The model
naturally accepts interleaved vision-language inputs and generates interleaved
vision-language outputs. Emu3.5 is further post-trained with large-scale
reinforcement learning to enhance multimodal reasoning and generation. To
improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA),
which converts token-by-token decoding into bidirectional parallel prediction,
accelerating per-image inference by about 20x without sacrificing performance.
Emu3.5 exhibits strong native multimodal capabilities, including long-horizon
vision-language generation, any-to-image (X2I) generation, and complex
text-rich image generation. It also exhibits generalizable world-modeling
abilities, enabling spatiotemporally consistent world exploration and
open-world embodied manipulation across diverse scenarios and tasks. For
comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image
(Nano Banana) on image generation and editing tasks and demonstrates superior
results on a suite of interleaved generation tasks. We open-source Emu3.5 at
https://github.com/baaivision/Emu3.5 to support community research.