ChatPaper.aiChatPaper

EMMA: 통합 아키텍처 기반 효율적 멀티모달 이해, 생성 및 편집

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

December 4, 2025
저자: Xin He, Longhui Wei, Jianbo Ouyang, Lingxi Xie, Qi Tian
cs.AI

초록

본 논문에서는 효율적인 멀티모달 이해, 생성 및 편집을 위한 통합 아키텍처인 EMMA를 제안한다. 구체적으로 EMMA는 다음과 같은 주요 구성 요소로 이루어진다. 1) 32배 압축률을 갖는 효율적인 오토인코더로, 생성에 필요한 토큰 수를 크게 줄인다. 이는 동일한 압축률을 이미지에 적용하여 이해와 생성 과업 간의 학습 균형을 보장한다. 2) 시각적 이해 토큰과 생성 토큰 간 토큰 단위 연결(concatenation) 대신 채널 단위 연결을 도입하여 통합 아키텍처 내 시각 토큰 수를 추가로 감소시킨다. 3) 과업별 모델링 요구사항을 충족시키면서 다양한 과업 간 상호 향상을 가능하게 하는 공유-분리 네트워크를 적용한다. 4) 시각적 이해 인코더에 적용된 전문가 혼합(MoE) 메커니즘으로, 적은 매개변수 증가만으로 인지 능력을 크게 향상시킨다. 폭넓은 실험을 통해 EMMA-4B가 효율성과 성능 모두에서 최첨단 통합 멀티모달 접근법(예: BAGEL-7B)을 크게 능가하는 동시에, 최근의 멀티모달 이해 및 생성 전문 모델(예: Qwen3-VL, Qwen-Image)과 비교하여 경쟁력 있는 결과를 달성함을 입증하였다. EMMA는 통합 멀티모달 아키텍처의 미래 발전을 위한 견고한 기반을 마련한 것으로 판단된다.
English
We propose EMMA, an efficient and unified architecture for multimodal understanding, generation and editing. Specifically, EMMA primarily consists of 1) An efficient autoencoder with a 32x compression ratio, which significantly reduces the number of tokens required for generation. This also ensures the training balance between understanding and generation tasks by applying the same compression ratio to images. 2) Channel-wise concatenation instead of token-wise concatenation among visual understanding and generation tokens, which further reduces the visual tokens in unified architectures. 3) A shared-and-decoupled network that enables mutual improvements across tasks while meeting the task-specific modeling requirements. 4) A mixture-of-experts mechanism adopted for visual understanding encoder, which substantially improves perceptual capabilities with a few parameters increase. Extensive experiments have shown that EMMA-4B can significantly outperform state-of-the-art unified multimodal approaches (e.g., BAGEL-7B) in both efficiency and performance, while also achieving competitive results compared to recent multimodal understanding and generation experts (e.g., Qwen3-VL and Qwen-Image). We believe that EMMA lays a solid foundation for the future development of unified multimodal architectures.
PDF223December 9, 2025