Chameleon: Modelos Fundacionales de Fusión Temprana Multimodal

Resumen

Presentamos Chameleon, una familia de modelos mixtos basados en tokens con fusión temprana, capaces de comprender y generar imágenes y texto en cualquier secuencia arbitraria. Describimos un enfoque de entrenamiento estable desde el inicio, una receta de alineación y una parametrización arquitectónica diseñada específicamente para el entorno mixto basado en tokens con fusión temprana. Los modelos se evalúan en una amplia gama de tareas, incluyendo respuesta visual a preguntas, generación de descripciones de imágenes, generación de texto, generación de imágenes y generación mixta de largo formato. Chameleon demuestra capacidades amplias y generales, incluyendo un rendimiento de vanguardia en tareas de generación de descripciones de imágenes, supera a Llama-2 en tareas exclusivas de texto mientras compite con modelos como Mixtral 8x7B y Gemini-Pro, y realiza generación de imágenes no trivial, todo en un solo modelo. Además, iguala o supera el rendimiento de modelos mucho más grandes, como Gemini Pro y GPT-4V, según evaluaciones humanas en una nueva prueba de generación mixta de largo formato, donde el prompt o las salidas contienen secuencias mixtas de imágenes y texto. Chameleon representa un avance significativo en el modelado unificado de documentos multimodales completos.

English

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

Chameleon: Modelos Fundacionales de Fusión Temprana Multimodal

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Resumen

Support