EMMA: Efficiënte Multimodale Begrip, Generatie en Bewerking met een Uniforme Architectuur
EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture
December 4, 2025
Auteurs: Xin He, Longhui Wei, Jianbo Ouyang, Lingxi Xie, Qi Tian
cs.AI
Samenvatting
Wij presenteren EMMA, een efficiënte en uniforme architectuur voor multimodale interpretatie, generatie en bewerking. Concreet bestaat EMMA hoofdzakelijk uit: 1) Een efficiënte auto-encoder met een compressieverhouding van 32x, die het aantal voor generatie benodigde tokens aanzienlijk reduceert. Dit waarborgt tevens de trainingsbalans tussen interpretatie- en generatietaken door dezelfde compressieratio op afbeeldingen toe te passen. 2) Kanaalsgewijze concatenatie in plaats van tokensgewijze concatenatie tussen visuele interpretatie- en generatietokens, wat het aantal visuele tokens in uniforme architecturen verder verkleint. 3) Een gedeeld-en-ontkoppeld netwerk dat wederzijdse verbeteringen tussen taken mogelijk maakt, tegelijkertijd voldoet aan taakspecifieke modelleereisen. 4) Een mixture-of-experts-mechanisme geïmplementeerd in de visuele interpretatie-encoder, dat de perceptuele capaciteiten aanzienlijk verbetert met een minimale parameterstoename. Uitgebreide experimenten tonen aan dat EMMA-4B state-of-the-art uniforme multimodale benaderingen (zoals BAGEL-7B) zowel in efficiëntie als prestaties significant overtreft, terwijl het ook competitieve resultaten behaalt vergeleken met recente gespecialiseerde multimodale interpretatie- en generatiesystemen (zoals Qwen3-VL en Qwen-Image). Wij zijn van mening dat EMMA een solide basis legt voor de toekomstige ontwikkeling van uniforme multimodale architecturen.
English
We propose EMMA, an efficient and unified architecture for multimodal understanding, generation and editing. Specifically, EMMA primarily consists of 1) An efficient autoencoder with a 32x compression ratio, which significantly reduces the number of tokens required for generation. This also ensures the training balance between understanding and generation tasks by applying the same compression ratio to images. 2) Channel-wise concatenation instead of token-wise concatenation among visual understanding and generation tokens, which further reduces the visual tokens in unified architectures. 3) A shared-and-decoupled network that enables mutual improvements across tasks while meeting the task-specific modeling requirements. 4) A mixture-of-experts mechanism adopted for visual understanding encoder, which substantially improves perceptual capabilities with a few parameters increase. Extensive experiments have shown that EMMA-4B can significantly outperform state-of-the-art unified multimodal approaches (e.g., BAGEL-7B) in both efficiency and performance, while also achieving competitive results compared to recent multimodal understanding and generation experts (e.g., Qwen3-VL and Qwen-Image). We believe that EMMA lays a solid foundation for the future development of unified multimodal architectures.