MANZANO: Ein einfaches und skalierbares einheitliches Multimodales Modell mit einem hybriden Vision-Tokenizer
MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
September 19, 2025
papers.authors: Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen
cs.AI
papers.abstract
Einheitliche multimodale Large Language Models (LLMs), die sowohl visuelle Inhalte verstehen als auch generieren können, bergen ein immenses Potenzial. Allerdings leiden bestehende Open-Source-Modelle oft unter einem Leistungskompromiss zwischen diesen Fähigkeiten. Wir präsentieren Manzano, ein einfaches und skalierbares einheitliches Framework, das diese Spannung erheblich reduziert, indem es einen hybriden Bild-Tokenizer mit einem gut durchdachten Trainingsrezept kombiniert. Ein einziger gemeinsamer Vision-Encoder versorgt zwei leichte Adapter, die kontinuierliche Einbettungen für das Verständnis von Bild-zu-Text und diskrete Tokens für die Generierung von Text-zu-Bild in einem gemeinsamen semantischen Raum erzeugen. Ein einheitlicher autoregressiver LLM sagt hochrangige Semantik in Form von Text- und Bild-Tokens voraus, wobei ein zusätzlicher Diffusions-Decoder anschließend die Bild-Tokens in Pixel übersetzt. Die Architektur, zusammen mit einem einheitlichen Trainingsrezept für Verständnis- und Generierungsdaten, ermöglicht skalierbares gemeinsames Lernen beider Fähigkeiten. Manzano erzielt state-of-the-art Ergebnisse unter einheitlichen Modellen und ist wettbewerbsfähig mit spezialisierten Modellen, insbesondere bei textlastigen Bewertungen. Unsere Studien zeigen minimale Aufgabenkonflikte und konsistente Gewinne durch die Skalierung der Modellgröße, was unsere Designentscheidung für einen hybriden Tokenizer bestätigt.
English
Unified multimodal Large Language Models (LLMs) that can both understand and
generate visual content hold immense potential. However, existing open-source
models often suffer from a performance trade-off between these capabilities. We
present Manzano, a simple and scalable unified framework that substantially
reduces this tension by coupling a hybrid image tokenizer with a well-curated
training recipe. A single shared vision encoder feeds two lightweight adapters
that produce continuous embeddings for image-to-text understanding and discrete
tokens for text-to-image generation within a common semantic space. A unified
autoregressive LLM predicts high-level semantics in the form of text and image
tokens, with an auxiliary diffusion decoder subsequently translating the image
tokens into pixels. The architecture, together with a unified training recipe
over understanding and generation data, enables scalable joint learning of both
capabilities. Manzano achieves state-of-the-art results among unified models,
and is competitive with specialist models, particularly on text-rich
evaluation. Our studies show minimal task conflicts and consistent gains from
scaling model size, validating our design choice of a hybrid tokenizer.