MANZANO: Un Modello Multimodale Unificato Semplice e Scalabile con un Tokenizzatore Visivo Ibrido
MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
September 19, 2025
Autori: Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) multimodali unificati, in grado sia di comprendere che di generare contenuti visivi, possiedono un enorme potenziale. Tuttavia, i modelli open-source esistenti spesso presentano un compromesso tra queste capacità. Presentiamo Manzano, un framework unificato semplice e scalabile che riduce sostanzialmente questa tensione accoppiando un tokenizer ibrido per le immagini con una ricetta di addestramento ben curata. Un singolo encoder visivo condiviso alimenta due adattatori leggeri che producono embedding continui per la comprensione da immagine a testo e token discreti per la generazione da testo a immagine all'interno di uno spazio semantico comune. Un LLM autoregressivo unificato predice la semantica di alto livello sotto forma di token di testo e immagini, con un decoder ausiliario di diffusione che successivamente traduce i token delle immagini in pixel. L'architettura, insieme a una ricetta di addestramento unificata su dati di comprensione e generazione, consente un apprendimento congiunto scalabile di entrambe le capacità. Manzano raggiunge risultati all'avanguardia tra i modelli unificati ed è competitivo con modelli specializzati, in particolare nelle valutazioni ricche di testo. I nostri studi mostrano conflitti minimi tra i compiti e guadagni consistenti derivanti dalla scalabilità delle dimensioni del modello, convalidando la nostra scelta progettuale di un tokenizer ibrido.
English
Unified multimodal Large Language Models (LLMs) that can both understand and
generate visual content hold immense potential. However, existing open-source
models often suffer from a performance trade-off between these capabilities. We
present Manzano, a simple and scalable unified framework that substantially
reduces this tension by coupling a hybrid image tokenizer with a well-curated
training recipe. A single shared vision encoder feeds two lightweight adapters
that produce continuous embeddings for image-to-text understanding and discrete
tokens for text-to-image generation within a common semantic space. A unified
autoregressive LLM predicts high-level semantics in the form of text and image
tokens, with an auxiliary diffusion decoder subsequently translating the image
tokens into pixels. The architecture, together with a unified training recipe
over understanding and generation data, enables scalable joint learning of both
capabilities. Manzano achieves state-of-the-art results among unified models,
and is competitive with specialist models, particularly on text-rich
evaluation. Our studies show minimal task conflicts and consistent gains from
scaling model size, validating our design choice of a hybrid tokenizer.