ChatPaper.aiChatPaper

Chameleon: Modelli Fondamentali a Fusione Precoce Multimodale

Chameleon: Mixed-Modal Early-Fusion Foundation Models

May 16, 2024
Autori: Chameleon Team
cs.AI

Abstract

Presentiamo Chameleon, una famiglia di modelli misti multimodali basati su token con fusione precoce, in grado di comprendere e generare immagini e testo in sequenze arbitrarie. Descriviamo un approccio di addestramento stabile fin dall'inizio, una ricetta di allineamento e una parametrizzazione architetturale specificamente progettata per il contesto misto multimodale basato su token con fusione precoce. I modelli vengono valutati su un'ampia gamma di task, tra cui risposta a domande visive, descrizione di immagini, generazione di testo, generazione di immagini e generazione mista multimodale di lunga durata. Chameleon dimostra capacità ampie e generali, inclusi risultati all'avanguardia nei task di descrizione di immagini, supera Llama-2 nei task esclusivamente testuali pur essendo competitivo con modelli come Mixtral 8x7B e Gemini-Pro, ed esegue una generazione di immagini non banale, tutto in un unico modello. Inoltre, eguaglia o supera le prestazioni di modelli molto più grandi, tra cui Gemini Pro e GPT-4V, secondo giudizi umani su una nuova valutazione di generazione mista multimodale di lunga durata, in cui il prompt o gli output contengono sequenze miste di immagini e testo. Chameleon rappresenta un significativo passo avanti nella modellizzazione unificata di documenti multimodali completi.
English
We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.
PDF13112December 15, 2024