Emu3.5: Нативные мультимодальные модели — это исследователи мира
Emu3.5: Native Multimodal Models are World Learners
October 30, 2025
Авторы: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI
Аннотация
Мы представляем Emu3.5 — крупномасштабную мультимодальную мировую модель, которая изначально предсказывает следующее состояние в области зрения и языка. Emu3.5 предварительно обучается end-to-end с единой целью предсказания следующего токена на корпусе чередующихся визуально-языковых данных, содержащем более 10 триллионов токенов, в основном полученных из последовательных кадров и транскриптов интернет-видео. Модель естественным образом принимает чередующиеся визуально-языковые входные данные и генерирует чередующиеся визуально-языковые выходные данные. Emu3.5 дополнительно проходит пост-обучение с помощью крупномасштабного обучения с подкреплением для улучшения мультимодального мышления и генерации. Для повышения эффективности вывода мы предлагаем Дискретную Адаптацию Диффузии (DiDA), которая преобразует последовательное декодирование токен за токеном в двунаправленное параллельное предсказание, ускоряя обработку одного изображения примерно в 20 раз без потери производительности. Emu3.5 демонстрирует мощные встроенные мультимодальные возможности, включая генерацию визуально-языковых последовательностей с большим горизонтом, генерацию "что угодно в изображение" (X2I) и создание сложных изображений, насыщенных текстом. Она также проявляет обобщаемые способности к моделированию мира, позволяя исследовать мир с пространственно-временной согласованностью и осуществлять манипуляции в открытом мире для различных сценариев и задач. Для сравнения, Emu3.5 демонстрирует производительность, сопоставимую с Gemini 2.5 Flash Image (Nano Banana) в задачах генерации и редактирования изображений, и показывает превосходные результаты в наборе задач чередующейся генерации. Мы открываем исходный код Emu3.5 по адресу https://github.com/baaivision/Emu3.5 для поддержки исследований сообщества.
English
We introduce Emu3.5, a large-scale multimodal world model that natively
predicts the next state across vision and language. Emu3.5 is pre-trained
end-to-end with a unified next-token prediction objective on a corpus of
vision-language interleaved data containing over 10 trillion tokens, primarily
derived from sequential frames and transcripts of internet videos. The model
naturally accepts interleaved vision-language inputs and generates interleaved
vision-language outputs. Emu3.5 is further post-trained with large-scale
reinforcement learning to enhance multimodal reasoning and generation. To
improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA),
which converts token-by-token decoding into bidirectional parallel prediction,
accelerating per-image inference by about 20x without sacrificing performance.
Emu3.5 exhibits strong native multimodal capabilities, including long-horizon
vision-language generation, any-to-image (X2I) generation, and complex
text-rich image generation. It also exhibits generalizable world-modeling
abilities, enabling spatiotemporally consistent world exploration and
open-world embodied manipulation across diverse scenarios and tasks. For
comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image
(Nano Banana) on image generation and editing tasks and demonstrates superior
results on a suite of interleaved generation tasks. We open-source Emu3.5 at
https://github.com/baaivision/Emu3.5 to support community research.