Хамелеон: Модели основы смешанного раннего объединения модальностей
Chameleon: Mixed-Modal Early-Fusion Foundation Models
May 16, 2024
Авторы: Chameleon Team
cs.AI
Аннотация
Мы представляем Chameleon, семейство моделей раннего слияния на основе токенов, способных понимать и генерировать изображения и текст в любой произвольной последовательности. Мы излагаем стабильный подход к обучению с самого начала, рецепт выравнивания и параметризацию архитектуры, адаптированные для раннего слияния на основе токенов в смешанной модальности. Модели оцениваются на широком спектре задач, включая визуальный вопросно-ответный анализ, подписывание изображений, генерацию текста, генерацию изображений и генерацию смешанных модальностей большой формы. Chameleon демонстрирует широкие и общие возможности, включая лучшую в своем классе производительность в задачах подписывания изображений, превосходит Llama-2 в задачах только с текстом, оставаясь конкурентоспособным с моделями, такими как Mixtral 8x7B и Gemini-Pro, и выполняет нетривиальную генерацию изображений, все в рамках одной модели. Он также соответствует или превосходит производительность гораздо более крупных моделей, включая Gemini Pro и GPT-4V, согласно оценкам людей на новой оценке генерации смешанных модальностей большой формы, где либо подсказка, либо выводы содержат смешанные последовательности изображений и текста. Chameleon является значительным шагом вперед в объединенном моделировании полных мультимодальных документов.
English
We present Chameleon, a family of early-fusion token-based mixed-modal models
capable of understanding and generating images and text in any arbitrary
sequence. We outline a stable training approach from inception, an alignment
recipe, and an architectural parameterization tailored for the early-fusion,
token-based, mixed-modal setting. The models are evaluated on a comprehensive
range of tasks, including visual question answering, image captioning, text
generation, image generation, and long-form mixed modal generation. Chameleon
demonstrates broad and general capabilities, including state-of-the-art
performance in image captioning tasks, outperforms Llama-2 in text-only tasks
while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and
performs non-trivial image generation, all in a single model. It also matches
or exceeds the performance of much larger models, including Gemini Pro and
GPT-4V, according to human judgments on a new long-form mixed-modal generation
evaluation, where either the prompt or outputs contain mixed sequences of both
images and text. Chameleon marks a significant step forward in a unified
modeling of full multimodal documents.Summary
AI-Generated Summary