Emu3.5:ネイティブマルチモーダルモデルは世界の学習者である
Emu3.5: Native Multimodal Models are World Learners
October 30, 2025
著者: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI
要旨
我々は、視覚と言語にわたる次の状態をネイティブに予測する大規模マルチモーダル世界モデル「Emu3.5」を提案する。Emu3.5は、主にインターネット動画の連続フレームとトランスクリプトからなる10兆トークン超の視覚-言語交互データコーパスに対し、統一された次トークン予測目標でエンドツーエンド事前学習されている。本モデルは視覚と言語が交互に入力されるデータを自然に受け入れ、交互出力を生成する。さらに大規模強化学習による事後学習により、マルチモーダル推論と生成能力を強化している。推論効率向上のため、我々は離散拡散適応(DiDA)を提案し、トークン単位の逐次デコードを双方向並列予測に変換することで、性能を損なわずに画像単位の推論速度を約20倍に加速した。Emu3.5は、長期視覚-言語生成、任意入力から画像生成(X2I)、複雑な文字情報を含む画像生成など、強力なネイティブマルチモーダル能力を示す。また一般化可能な世界モデリング能力を有し、多様なシナリオやタスクにおいて時空間的一貫性のある世界探索やオープンワールドでの具身操作を実現する。比較実験では、画像生成・編集タスクにおいてGemini 2.5 Flash Image(Nano Banana)に匹敵する性能を達成し、一連の交互生成タスクでは優れた結果を示した。コミュニティ研究を支援するため、Emu3.5をhttps://github.com/baaivision/Emu3.5 でオープンソース化する。
English
We introduce Emu3.5, a large-scale multimodal world model that natively
predicts the next state across vision and language. Emu3.5 is pre-trained
end-to-end with a unified next-token prediction objective on a corpus of
vision-language interleaved data containing over 10 trillion tokens, primarily
derived from sequential frames and transcripts of internet videos. The model
naturally accepts interleaved vision-language inputs and generates interleaved
vision-language outputs. Emu3.5 is further post-trained with large-scale
reinforcement learning to enhance multimodal reasoning and generation. To
improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA),
which converts token-by-token decoding into bidirectional parallel prediction,
accelerating per-image inference by about 20x without sacrificing performance.
Emu3.5 exhibits strong native multimodal capabilities, including long-horizon
vision-language generation, any-to-image (X2I) generation, and complex
text-rich image generation. It also exhibits generalizable world-modeling
abilities, enabling spatiotemporally consistent world exploration and
open-world embodied manipulation across diverse scenarios and tasks. For
comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image
(Nano Banana) on image generation and editing tasks and demonstrates superior
results on a suite of interleaved generation tasks. We open-source Emu3.5 at
https://github.com/baaivision/Emu3.5 to support community research.