Emu3.5: I modelli multimodali nativi sono apprendisti del mondo
Emu3.5: Native Multimodal Models are World Learners
October 30, 2025
Autori: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI
Abstract
Introduciamo Emu3.5, un modello mondiale multimodale su larga scala che predice nativamente lo stato successivo attraverso visione e linguaggio. Emu3.5 è pre-addestrato end-to-end con un obiettivo unificato di predizione del token successivo su un corpus di dati intervallati visione-linguaggio contenente oltre 10 trilioni di token, derivati principalmente da frame sequenziali e trascrizioni di video internet. Il modello accetta naturalmente input visione-linguaggio intervallati e genera output visione-linguaggio intervallati. Emu3.5 è ulteriormente post-addestrato con apprendimento per rinforzo su larga scala per potenziare il ragionamento e la generazione multimodale. Per migliorare l'efficienza inferenziale, proponiamo Discrete Diffusion Adaptation (DiDA), che converte la decodifica token-per-token in una predizione parallela bidirezionale, accelerando l'inferenza per immagine di circa 20x senza sacrificare le prestazioni. Emu3.5 mostra forti capacità multimodali native, inclusa la generazione visione-linguaggio a lungo termine, la generazione any-to-image (X2I) e la generazione di immagini complesse ricche di testo. Mostra anche abilità generalizzabili di modellazione mondiale, abilitando l'esplorazione mondiale spaziotemporalmente coerente e la manipolazione embodied in mondi aperti attraverso scenari e compiti diversificati. Per confronto, Emu3.5 raggiunge prestazioni comparabili a Gemini 2.5 Flash Image (Nano Banana) su compiti di generazione e editing di immagini e dimostra risultati superiori su una suite di compiti di generazione intervallata. Rendiamo Emu3.5 open-source su https://github.com/baaivision/Emu3.5 per supportare la ricerca della comunità.
English
We introduce Emu3.5, a large-scale multimodal world model that natively
predicts the next state across vision and language. Emu3.5 is pre-trained
end-to-end with a unified next-token prediction objective on a corpus of
vision-language interleaved data containing over 10 trillion tokens, primarily
derived from sequential frames and transcripts of internet videos. The model
naturally accepts interleaved vision-language inputs and generates interleaved
vision-language outputs. Emu3.5 is further post-trained with large-scale
reinforcement learning to enhance multimodal reasoning and generation. To
improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA),
which converts token-by-token decoding into bidirectional parallel prediction,
accelerating per-image inference by about 20x without sacrificing performance.
Emu3.5 exhibits strong native multimodal capabilities, including long-horizon
vision-language generation, any-to-image (X2I) generation, and complex
text-rich image generation. It also exhibits generalizable world-modeling
abilities, enabling spatiotemporally consistent world exploration and
open-world embodied manipulation across diverse scenarios and tasks. For
comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image
(Nano Banana) on image generation and editing tasks and demonstrates superior
results on a suite of interleaved generation tasks. We open-source Emu3.5 at
https://github.com/baaivision/Emu3.5 to support community research.