Emu3.5: Inheemse multimodale modellen zijn wereldverkenners
Emu3.5: Native Multimodal Models are World Learners
October 30, 2025
Auteurs: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI
Samenvatting
Wij introduceren Emu3.5, een grootschalig multimodaal wereldmodel dat van nature de volgende toestand voorspelt in zowel visie als taal. Emu3.5 is end-to-end voorgetraind met een uniforme 'next-token'-voorspellingsdoelstelling op een corpus van door elkaar heen geplaatste visie-taalgegevens met meer dan 10 biljoen tokens, voornamelijk afkomstig van opeenvolgende frames en transcripten van internetvideo's. Het model accepteert van nature door elkaar heen geplaatste visie-taalinput en genereert door elkaar heen geplaatste visie-taaloutput. Emu3.5 is verder nagetrainend met grootschalige reinforcement learning om multimodale redenering en generatie te verbeteren. Om de inferentie-efficiëntie te verbeteren, stellen wij Discrete Diffusion Adaptation (DiDA) voor, welke token-voor-token-decodering omzet in bidirectionele parallelle voorspelling, wat de inferentie per beeld versnelt met ongeveer 20x zonder prestaties in te leveren. Emu3.5 vertoont sterke native multimodale capaciteiten, waaronder langetermijn visie-taalgeneratie, alles-naar-beeld (X2I)-generatie en het genereren van complexe tekstrijke beelden. Het vertoont ook generaliseerbare wereldmodellerende vermogens, waardoor ruimtelijk-tijdelijk consistente wereldverkenning en embodied manipulatie in een open wereld mogelijk wordt in diverse scenario's en taken. Ter vergelijking: Emu3.5 bereikt prestaties vergelijkbaar met Gemini 2.5 Flash Image (Nano Banana) voor beeldgeneratie- en bewerkingstaken en toont superieure resultaten op een reeks door elkaar heen geplaatste generatietaken. Wij maken Emu3.5 open source op https://github.com/baaivision/Emu3.5 om gemeenschapsonderzoek te ondersteunen.
English
We introduce Emu3.5, a large-scale multimodal world model that natively
predicts the next state across vision and language. Emu3.5 is pre-trained
end-to-end with a unified next-token prediction objective on a corpus of
vision-language interleaved data containing over 10 trillion tokens, primarily
derived from sequential frames and transcripts of internet videos. The model
naturally accepts interleaved vision-language inputs and generates interleaved
vision-language outputs. Emu3.5 is further post-trained with large-scale
reinforcement learning to enhance multimodal reasoning and generation. To
improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA),
which converts token-by-token decoding into bidirectional parallel prediction,
accelerating per-image inference by about 20x without sacrificing performance.
Emu3.5 exhibits strong native multimodal capabilities, including long-horizon
vision-language generation, any-to-image (X2I) generation, and complex
text-rich image generation. It also exhibits generalizable world-modeling
abilities, enabling spatiotemporally consistent world exploration and
open-world embodied manipulation across diverse scenarios and tasks. For
comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image
(Nano Banana) on image generation and editing tasks and demonstrates superior
results on a suite of interleaved generation tasks. We open-source Emu3.5 at
https://github.com/baaivision/Emu3.5 to support community research.