MANZANO: Een eenvoudig en schaalbaar verenigd multimodaal model met een hybride vision-tokenizer
MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
September 19, 2025
Auteurs: Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen
cs.AI
Samenvatting
Unified multimodale Large Language Models (LLMs) die zowel visuele inhoud kunnen begrijpen als genereren, bieden enorm veel potentieel. Bestaande open-source modellen kampen echter vaak met een prestatieafweging tussen deze capaciteiten. Wij presenteren Manzano, een eenvoudig en schaalbaar unified framework dat deze spanning aanzienlijk vermindert door een hybride beeldtokenizer te combineren met een zorgvuldig samengesteld trainingsrecept. Een enkele gedeelde visuele encoder voedt twee lichtgewicht adapters die continue embeddings produceren voor beeld-naar-tekst-begrip en discrete tokens voor tekst-naar-beeld-generatie binnen een gemeenschappelijke semantische ruimte. Een unified autoregressieve LLM voorspelt hoogwaardige semantiek in de vorm van tekst- en beeldtokens, waarna een aanvullende diffusiedecoder de beeldtokens vertaalt naar pixels. De architectuur, samen met een unified trainingsrecept voor zowel begrips- als generatiedata, maakt schaalbare gezamenlijke training van beide capaciteiten mogelijk. Manzano behaalt state-of-the-art resultaten onder unified modellen en is competitief met gespecialiseerde modellen, met name bij tekstrijke evaluaties. Onze studies tonen minimale taakconflicten en consistente verbeteringen door het schalen van de modelgrootte, wat onze ontwerpkeuze voor een hybride tokenizer valideert.
English
Unified multimodal Large Language Models (LLMs) that can both understand and
generate visual content hold immense potential. However, existing open-source
models often suffer from a performance trade-off between these capabilities. We
present Manzano, a simple and scalable unified framework that substantially
reduces this tension by coupling a hybrid image tokenizer with a well-curated
training recipe. A single shared vision encoder feeds two lightweight adapters
that produce continuous embeddings for image-to-text understanding and discrete
tokens for text-to-image generation within a common semantic space. A unified
autoregressive LLM predicts high-level semantics in the form of text and image
tokens, with an auxiliary diffusion decoder subsequently translating the image
tokens into pixels. The architecture, together with a unified training recipe
over understanding and generation data, enables scalable joint learning of both
capabilities. Manzano achieves state-of-the-art results among unified models,
and is competitive with specialist models, particularly on text-rich
evaluation. Our studies show minimal task conflicts and consistent gains from
scaling model size, validating our design choice of a hybrid tokenizer.