EMMA: 統合アーキテクチャによる効率的なマルチモーダル理解・生成・編集
EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture
December 4, 2025
著者: Xin He, Longhui Wei, Jianbo Ouyang, Lingxi Xie, Qi Tian
cs.AI
要旨
我々は、マルチモーダル理解・生成・編集のための効率的で統一的なアーキテクチャ「EMMA」を提案する。具体的には、EMMAは主に以下で構成される:1) 32倍の圧縮率を有する効率的オートエンコーダ。これにより生成に必要なトークン数を大幅に削減し、画像にも同圧縮率を適用することで理解タスクと生成タスクの訓練バランスを確保。2) 視覚理解トークンと生成トークンの結合をトークン単位ではなくチャネル単位で実施し、統一アーキテクチャにおける視覚トークンの更なる削減を実現。3) タスク間での相互改善を可能にしつつ、タスク特有のモデリング要件を満たす共有・分離型ネットワーク。4) 視覚理解エンコーダに採用したMixture-of-Experts機構。パラメータ数をわずかに増加させるだけで知覚能力を大幅に向上。大規模実験により、EMMA-4Bが効率性と性能の両方で最先端の統一マルチモーダル手法(BAGEL-7B等)を大幅に上回り、最近のマルチモーダル理解・生成専門モデル(Qwen3-VLやQwen-Image等)に対しても競合する結果を達成することを実証。EMMAは将来の統一マルチモーダルアーキテクチャ発展の強固な基盤を築くと確信する。
English
We propose EMMA, an efficient and unified architecture for multimodal understanding, generation and editing. Specifically, EMMA primarily consists of 1) An efficient autoencoder with a 32x compression ratio, which significantly reduces the number of tokens required for generation. This also ensures the training balance between understanding and generation tasks by applying the same compression ratio to images. 2) Channel-wise concatenation instead of token-wise concatenation among visual understanding and generation tokens, which further reduces the visual tokens in unified architectures. 3) A shared-and-decoupled network that enables mutual improvements across tasks while meeting the task-specific modeling requirements. 4) A mixture-of-experts mechanism adopted for visual understanding encoder, which substantially improves perceptual capabilities with a few parameters increase. Extensive experiments have shown that EMMA-4B can significantly outperform state-of-the-art unified multimodal approaches (e.g., BAGEL-7B) in both efficiency and performance, while also achieving competitive results compared to recent multimodal understanding and generation experts (e.g., Qwen3-VL and Qwen-Image). We believe that EMMA lays a solid foundation for the future development of unified multimodal architectures.