ANOLE: Открытые, авторегрессионные, масштабные мультимодальные модели для генерации изображений и текста.
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation
July 8, 2024
Авторы: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI
Аннотация
Предыдущие многофункциональные модели с открытым исходным кодом (LMM) сталкивались с несколькими ограничениями: (1) часто отсутствует нативная интеграция, требуя адаптеров для согласования визуальных представлений с предварительно обученными крупными языковыми моделями (LLM); (2) многие ограничены генерацией в одном модальном режиме; (3) хотя некоторые поддерживают многофункциональную генерацию, они полагаются на отдельные модели диффузии для визуального моделирования и генерации. Для устранения этих ограничений мы представляем Anole, открытую авторегрессионную многофункциональную модель для переплетенной генерации изображений и текста. Мы создали Anole на основе Chameleon от Meta AI, применяя инновационную стратегию дообучения, которая является как эффективной с точки зрения данных, так и параметров. Anole демонстрирует высококачественные, последовательные возможности многофункциональной генерации. Мы предоставили нашу модель с открытым исходным кодом, обучающий фреймворк и данные для настройки инструкций.
English
Previous open-source large multimodal models (LMMs) have faced several
limitations: (1) they often lack native integration, requiring adapters to
align visual representations with pre-trained large language models (LLMs); (2)
many are restricted to single-modal generation; (3) while some support
multimodal generation, they rely on separate diffusion models for visual
modeling and generation. To mitigate these limitations, we present Anole, an
open, autoregressive, native large multimodal model for interleaved image-text
generation. We build Anole from Meta AI's Chameleon, adopting an innovative
fine-tuning strategy that is both data-efficient and parameter-efficient. Anole
demonstrates high-quality, coherent multimodal generation capabilities. We have
open-sourced our model, training framework, and instruction tuning data.Summary
AI-Generated Summary