MANZANO: Un Modelo Unificado Multimodal Simple y Escalable con un Tokenizador Visual Híbrido

Resumen

Los modelos de lenguaje multimodal unificados (LLM, por sus siglas en inglés) que pueden comprender y generar contenido visual tienen un potencial inmenso. Sin embargo, los modelos de código abierto existentes a menudo presentan un compromiso en el rendimiento entre estas capacidades. Presentamos Manzano, un marco unificado simple y escalable que reduce sustancialmente esta tensión al combinar un tokenizador híbrido de imágenes con una receta de entrenamiento bien diseñada. Un único codificador visual compartido alimenta dos adaptadores ligeros que producen incrustaciones continuas para la comprensión de imágenes a texto y tokens discretos para la generación de texto a imágenes dentro de un espacio semántico común. Un LLM autorregresivo unificado predice semántica de alto nivel en forma de texto y tokens de imágenes, con un decodificador de difusión auxiliar que posteriormente traduce los tokens de imágenes en píxeles. La arquitectura, junto con una receta de entrenamiento unificada sobre datos de comprensión y generación, permite un aprendizaje conjunto escalable de ambas capacidades. Manzano logra resultados de vanguardia entre los modelos unificados y es competitivo con modelos especializados, particularmente en evaluaciones ricas en texto. Nuestros estudios muestran conflictos mínimos entre tareas y ganancias consistentes al escalar el tamaño del modelo, validando nuestra elección de diseño de un tokenizador híbrido.

English

Unified multimodal Large Language Models (LLMs) that can both understand and generate visual content hold immense potential. However, existing open-source models often suffer from a performance trade-off between these capabilities. We present Manzano, a simple and scalable unified framework that substantially reduces this tension by coupling a hybrid image tokenizer with a well-curated training recipe. A single shared vision encoder feeds two lightweight adapters that produce continuous embeddings for image-to-text understanding and discrete tokens for text-to-image generation within a common semantic space. A unified autoregressive LLM predicts high-level semantics in the form of text and image tokens, with an auxiliary diffusion decoder subsequently translating the image tokens into pixels. The architecture, together with a unified training recipe over understanding and generation data, enables scalable joint learning of both capabilities. Manzano achieves state-of-the-art results among unified models, and is competitive with specialist models, particularly on text-rich evaluation. Our studies show minimal task conflicts and consistent gains from scaling model size, validating our design choice of a hybrid tokenizer.

MANZANO: Un Modelo Unificado Multimodal Simple y Escalable con un Tokenizador Visual Híbrido

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

Resumen

Support