Emu3.5: Native multimodale Modelle als Weltversteher
Emu3.5: Native Multimodal Models are World Learners
October 30, 2025
papers.authors: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI
papers.abstract
Wir stellen Emu3.5 vor, ein großskaliges multimodales Weltmodell, das von Grund auf den nächsten Zustand in den Bereichen Vision und Sprache vorhersagt. Emu3.5 wird end-to-end mit einem einheitlichen "Next-Token-Prediction"-Ziel auf einem Korpus aus verschachtelten Vision-Sprache-Daten vortrainiert, der über 10 Billionen Tokens umfasst und hauptsächlich aus sequentiellen Frames und Transkripten von Internetvideos stammt. Das Modell akzeptiert auf natürliche Weise verschachtelte Vision-Sprache-Eingaben und erzeugt verschachtelte Vision-Sprache-Ausgaben. Emu3.5 wird anschließend mit großskaligem Reinforcement Learning nachtrainiert, um das multimodale Schlussfolgern und die Generierung zu verbessern. Um die Inferenzeffizienz zu steigern, schlagen wir Discrete Diffusion Adaptation (DiDA) vor, das die Token-für-Token-Decodierung in eine bidirektionale parallele Vorhersage umwandelt und die Inferenz pro Bild um etwa das 20-fache beschleunigt, ohne Leistungseinbußen. Emu3.5 zeigt starke native multimodale Fähigkeiten, einschließlich langfristiger Vision-Sprache-Generierung, Any-to-Image (X2I)-Generierung und der Generierung komplexer textlastiger Bilder. Es zeigt auch generalisierbare Weltmodellierungsfähigkeiten, die eine räumlich-zeitlich konsistente Welterkundung und Open-World-Embodied-Manipulation über verschiedene Szenarien und Aufgaben hinweg ermöglichen. Im Vergleich erzielt Emu3.5 eine mit Gemini 2.5 Flash Image (Nano Banana) vergleichbare Leistung bei Bildgenerierungs- und Bearbeitungsaufgaben und demonstriert überlegene Ergebnisse bei einer Reihe von verschachtelten Generierungsaufgaben. Wir stellen Emu3.5 unter https://github.com/baaivision/Emu3.5 als Open Source zur Verfügung, um die Forschung in der Community zu unterstützen.
English
We introduce Emu3.5, a large-scale multimodal world model that natively
predicts the next state across vision and language. Emu3.5 is pre-trained
end-to-end with a unified next-token prediction objective on a corpus of
vision-language interleaved data containing over 10 trillion tokens, primarily
derived from sequential frames and transcripts of internet videos. The model
naturally accepts interleaved vision-language inputs and generates interleaved
vision-language outputs. Emu3.5 is further post-trained with large-scale
reinforcement learning to enhance multimodal reasoning and generation. To
improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA),
which converts token-by-token decoding into bidirectional parallel prediction,
accelerating per-image inference by about 20x without sacrificing performance.
Emu3.5 exhibits strong native multimodal capabilities, including long-horizon
vision-language generation, any-to-image (X2I) generation, and complex
text-rich image generation. It also exhibits generalizable world-modeling
abilities, enabling spatiotemporally consistent world exploration and
open-world embodied manipulation across diverse scenarios and tasks. For
comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image
(Nano Banana) on image generation and editing tasks and demonstrates superior
results on a suite of interleaved generation tasks. We open-source Emu3.5 at
https://github.com/baaivision/Emu3.5 to support community research.