Emu3.5 : Les modèles multimodaux natifs sont des apprenants du monde
Emu3.5: Native Multimodal Models are World Learners
October 30, 2025
papers.authors: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI
papers.abstract
Nous présentons Emu3.5, un modèle de monde multimodal à grande échelle qui prédit nativement l'état suivant dans les domaines visuel et linguistique. Emu3.5 est pré-entraîné de bout en bout avec un objectif unifié de prédiction du token suivant sur un corpus de données entrelacées vision-langage contenant plus de 10 billions de tokens, principalement dérivées d'images séquentielles et de transcriptions de vidéos internet. Le modèle accepte naturellement des entrées vision-langage entrelacées et génère des sorties vision-langage entrelacées. Emu3.5 est ensuite post-entraîné par apprentissage par renforcement à grande échelle pour améliorer le raisonnement et la génération multimodaux. Pour améliorer l'efficacité de l'inférence, nous proposons l'Adaptation par Diffusion Discrète (DiDA), qui convertit le décodage token-par-token en une prédiction parallèle bidirectionnelle, accélérant l'inférence par image d'environ 20 fois sans sacrifier les performances. Emu3.5 présente de fortes capacités multimodales natives, incluant la génération vision-langage à long horizon, la génération tout-vers-image (X2I), et la génération d'images complexes riches en texte. Il présente également des capacités généralisables de modélisation du monde, permettant l'exploration mondiale cohérente spatio-temporellement et la manipulation incarnée en monde ouvert à travers divers scénarios et tâches. En comparaison, Emu3.5 atteint des performances comparables à Gemini 2.5 Flash Image (Nano Banana) sur les tâches de génération et d'édition d'images et démontre des résultats supérieurs sur un ensemble de tâches de génération entrelacées. Nous rendons Emu3.5 open-source à l'adresse https://github.com/baaivision/Emu3.5 pour soutenir la recherche communautaire.
English
We introduce Emu3.5, a large-scale multimodal world model that natively
predicts the next state across vision and language. Emu3.5 is pre-trained
end-to-end with a unified next-token prediction objective on a corpus of
vision-language interleaved data containing over 10 trillion tokens, primarily
derived from sequential frames and transcripts of internet videos. The model
naturally accepts interleaved vision-language inputs and generates interleaved
vision-language outputs. Emu3.5 is further post-trained with large-scale
reinforcement learning to enhance multimodal reasoning and generation. To
improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA),
which converts token-by-token decoding into bidirectional parallel prediction,
accelerating per-image inference by about 20x without sacrificing performance.
Emu3.5 exhibits strong native multimodal capabilities, including long-horizon
vision-language generation, any-to-image (X2I) generation, and complex
text-rich image generation. It also exhibits generalizable world-modeling
abilities, enabling spatiotemporally consistent world exploration and
open-world embodied manipulation across diverse scenarios and tasks. For
comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image
(Nano Banana) on image generation and editing tasks and demonstrates superior
results on a suite of interleaved generation tasks. We open-source Emu3.5 at
https://github.com/baaivision/Emu3.5 to support community research.