Chameleon: Modelos de Fundação com Fusão Precoce Multimodal
Chameleon: Mixed-Modal Early-Fusion Foundation Models
May 16, 2024
Autores: Chameleon Team
cs.AI
Resumo
Apresentamos o Chameleon, uma família de modelos mistos baseados em tokens com fusão precoce, capazes de compreender e gerar imagens e texto em qualquer sequência arbitrária. Descrevemos uma abordagem de treinamento estável desde o início, uma receita de alinhamento e uma parametrização arquitetônica adaptada para o cenário de fusão precoce, baseada em tokens e multimodal. Os modelos são avaliados em uma ampla gama de tarefas, incluindo resposta a perguntas visuais, legendagem de imagens, geração de texto, geração de imagens e geração mista de longa duração. O Chameleon demonstra capacidades amplas e gerais, incluindo desempenho de ponta em tarefas de legendagem de imagens, supera o Llama-2 em tarefas exclusivamente textuais, mantendo-se competitivo com modelos como o Mixtral 8x7B e o Gemini-Pro, e realiza geração de imagens não triviais, tudo em um único modelo. Ele também iguala ou supera o desempenho de modelos muito maiores, incluindo o Gemini Pro e o GPT-4V, de acordo com avaliações humanas em uma nova avaliação de geração mista de longa duração, onde o prompt ou as saídas contêm sequências mistas de imagens e texto. O Chameleon representa um avanço significativo na modelagem unificada de documentos multimodais completos.
English
We present Chameleon, a family of early-fusion token-based mixed-modal models
capable of understanding and generating images and text in any arbitrary
sequence. We outline a stable training approach from inception, an alignment
recipe, and an architectural parameterization tailored for the early-fusion,
token-based, mixed-modal setting. The models are evaluated on a comprehensive
range of tasks, including visual question answering, image captioning, text
generation, image generation, and long-form mixed modal generation. Chameleon
demonstrates broad and general capabilities, including state-of-the-art
performance in image captioning tasks, outperforms Llama-2 in text-only tasks
while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and
performs non-trivial image generation, all in a single model. It also matches
or exceeds the performance of much larger models, including Gemini Pro and
GPT-4V, according to human judgments on a new long-form mixed-modal generation
evaluation, where either the prompt or outputs contain mixed sequences of both
images and text. Chameleon marks a significant step forward in a unified
modeling of full multimodal documents.