ChatPaper.aiChatPaper

MANZANO: ハイブリッドビジョントークナイザーを備えたシンプルでスケーラブルな統合マルチモーダルモデル

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

September 19, 2025
著者: Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen
cs.AI

要旨

視覚コンテンツを理解し生成する能力を兼ね備えた統一されたマルチモーダル大規模言語モデル(LLMs)は、非常に大きな可能性を秘めています。しかし、既存のオープンソースモデルでは、これらの能力間のパフォーマンスのトレードオフがしばしば問題となります。本研究では、Manzanoを提案します。これは、ハイブリッド画像トークナイザーと入念に調整されたトレーニングレシピを組み合わせることで、この緊張を大幅に緩和するシンプルでスケーラブルな統一フレームワークです。単一の共有視覚エンコーダが、画像からテキストへの理解のための連続的な埋め込みと、テキストから画像への生成のための離散的なトークンを共通の意味空間内で生成する2つの軽量アダプタに供給します。統一された自己回帰型LLMは、テキストと画像トークンの形で高レベルの意味を予測し、補助的な拡散デコーダがその後画像トークンをピクセルに変換します。このアーキテクチャは、理解と生成のデータに対する統一されたトレーニングレシピとともに、両方の能力のスケーラブルな共同学習を可能にします。Manzanoは、統一モデルの中で最先端の結果を達成し、特にテキストが豊富な評価において専門モデルと競合します。我々の研究は、タスク間の最小限の衝突とモデルサイズのスケーリングによる一貫した利得を示し、ハイブリッドトークナイザーの設計選択を検証しています。
English
Unified multimodal Large Language Models (LLMs) that can both understand and generate visual content hold immense potential. However, existing open-source models often suffer from a performance trade-off between these capabilities. We present Manzano, a simple and scalable unified framework that substantially reduces this tension by coupling a hybrid image tokenizer with a well-curated training recipe. A single shared vision encoder feeds two lightweight adapters that produce continuous embeddings for image-to-text understanding and discrete tokens for text-to-image generation within a common semantic space. A unified autoregressive LLM predicts high-level semantics in the form of text and image tokens, with an auxiliary diffusion decoder subsequently translating the image tokens into pixels. The architecture, together with a unified training recipe over understanding and generation data, enables scalable joint learning of both capabilities. Manzano achieves state-of-the-art results among unified models, and is competitive with specialist models, particularly on text-rich evaluation. Our studies show minimal task conflicts and consistent gains from scaling model size, validating our design choice of a hybrid tokenizer.
PDF493September 22, 2025