Chameleon: Modelli Fondamentali a Fusione Precoce Multimodale
Chameleon: Mixed-Modal Early-Fusion Foundation Models
May 16, 2024
Autori: Chameleon Team
cs.AI
Abstract
Presentiamo Chameleon, una famiglia di modelli misti multimodali basati su token con fusione precoce, in grado di comprendere e generare immagini e testo in sequenze arbitrarie. Descriviamo un approccio di addestramento stabile fin dall'inizio, una ricetta di allineamento e una parametrizzazione architetturale specificamente progettata per il contesto misto multimodale basato su token con fusione precoce. I modelli vengono valutati su un'ampia gamma di task, tra cui risposta a domande visive, descrizione di immagini, generazione di testo, generazione di immagini e generazione mista multimodale di lunga durata. Chameleon dimostra capacità ampie e generali, inclusi risultati all'avanguardia nei task di descrizione di immagini, supera Llama-2 nei task esclusivamente testuali pur essendo competitivo con modelli come Mixtral 8x7B e Gemini-Pro, ed esegue una generazione di immagini non banale, tutto in un unico modello. Inoltre, eguaglia o supera le prestazioni di modelli molto più grandi, tra cui Gemini Pro e GPT-4V, secondo giudizi umani su una nuova valutazione di generazione mista multimodale di lunga durata, in cui il prompt o gli output contengono sequenze miste di immagini e testo. Chameleon rappresenta un significativo passo avanti nella modellizzazione unificata di documenti multimodali completi.
English
We present Chameleon, a family of early-fusion token-based mixed-modal models
capable of understanding and generating images and text in any arbitrary
sequence. We outline a stable training approach from inception, an alignment
recipe, and an architectural parameterization tailored for the early-fusion,
token-based, mixed-modal setting. The models are evaluated on a comprehensive
range of tasks, including visual question answering, image captioning, text
generation, image generation, and long-form mixed modal generation. Chameleon
demonstrates broad and general capabilities, including state-of-the-art
performance in image captioning tasks, outperforms Llama-2 in text-only tasks
while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and
performs non-trivial image generation, all in a single model. It also matches
or exceeds the performance of much larger models, including Gemini Pro and
GPT-4V, according to human judgments on a new long-form mixed-modal generation
evaluation, where either the prompt or outputs contain mixed sequences of both
images and text. Chameleon marks a significant step forward in a unified
modeling of full multimodal documents.