ChatPaper.aiChatPaper

Emu3.5: 네이티브 멀티모달 모델, 세계를 학습하는 학습자

Emu3.5: Native Multimodal Models are World Learners

October 30, 2025
저자: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
cs.AI

초록

우리는 시각과 언어를 아우르는 차기 상태를 기본적으로 예측하는 대규모 멀티모달 월드 모델인 Emu3.5를 소개한다. Emu3.5는 인터넷 동영상의 연속 프레임과 자막에서 주로 추출된 10조 개 이상의 토큰으로 구성된 시각-언어 연속 데이터 코퍼스에 대해 통합된 다음 토큰 예측 목표로 엔드투엔드 사전 학습되었다. 이 모델은 시각-언어가 혼합된 입력을 자연스럽게 받아들이고 혼합된 시각-언어 출력을 생성한다. Emu3.5는 멀티모달 추론 및 생성을 향상시키기 위해 대규모 강화 학습을 추가 사후 학습하였다. 추론 효율을 개선하기 위해 토큰 단위 디코딩을 양방향 병렬 예측으로 전환하는 Discrete Diffusion Adaptation(DiDA)을 제안하며, 이는 성능 저하 없이 이미지당 추론 속도를 약 20배 가속화한다. Emu3.5는 장기 시각-언어 생성, 임의 입력-이미지(X2I) 생성, 복잡한 텍스트 중심 이미지 생성 등 강력한 기본 멀티모달 능력을 보여준다. 또한 일반화 가능한 월드 모델링 능력을 통해 다양한 시나리오와 작업에서 시공간적으로 일관된 월드 탐색 및 오픈 월드 구현 조작이 가능하다. 비교 평가에서 Emu3.5는 이미지 생성 및 편집 작업에서 Gemini 2.5 Flash Image(Nano Banana)에 버금가는 성능을 달성했으며,一系列 연속 생성 작업에서 우수한 결과를 보인다. 우리는 커뮤니티 연구 지원을 위해 Emu3.5를 https://github.com/baaivision/Emu3.5 에 오픈소스로 공개한다.
English
We introduce Emu3.5, a large-scale multimodal world model that natively predicts the next state across vision and language. Emu3.5 is pre-trained end-to-end with a unified next-token prediction objective on a corpus of vision-language interleaved data containing over 10 trillion tokens, primarily derived from sequential frames and transcripts of internet videos. The model naturally accepts interleaved vision-language inputs and generates interleaved vision-language outputs. Emu3.5 is further post-trained with large-scale reinforcement learning to enhance multimodal reasoning and generation. To improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA), which converts token-by-token decoding into bidirectional parallel prediction, accelerating per-image inference by about 20x without sacrificing performance. Emu3.5 exhibits strong native multimodal capabilities, including long-horizon vision-language generation, any-to-image (X2I) generation, and complex text-rich image generation. It also exhibits generalizable world-modeling abilities, enabling spatiotemporally consistent world exploration and open-world embodied manipulation across diverse scenarios and tasks. For comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image (Nano Banana) on image generation and editing tasks and demonstrates superior results on a suite of interleaved generation tasks. We open-source Emu3.5 at https://github.com/baaivision/Emu3.5 to support community research.
PDF1044December 2, 2025