ANOLE: Um Modelo Multimodal Grande, Nativo, Autoregressivo e Aberto para Geração de Imagem-Texto Interligada
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation
July 8, 2024
Autores: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI
Resumo
Modelos grandes multimodais de código aberto anteriores (LMMs) enfrentaram várias limitações: (1) frequentemente carecem de integração nativa, exigindo adaptadores para alinhar representações visuais com modelos de linguagem grandes pré-treinados (LLMs); (2) muitos estão restritos à geração unimodal; (3) enquanto alguns suportam a geração multimodal, dependem de modelos de difusão separados para modelagem visual e geração. Para mitigar essas limitações, apresentamos Anole, um modelo multimodal grande nativo, aberto e autoregressivo para geração de imagem-texto entrelaçada. Construímos Anole a partir do Chameleon da Meta AI, adotando uma estratégia inovadora de ajuste fino que é eficiente em dados e em parâmetros. Anole demonstra capacidades de geração multimodal de alta qualidade e coerentes. Disponibilizamos nosso modelo, estrutura de treinamento e dados de ajuste de instrução de forma aberta.
English
Previous open-source large multimodal models (LMMs) have faced several
limitations: (1) they often lack native integration, requiring adapters to
align visual representations with pre-trained large language models (LLMs); (2)
many are restricted to single-modal generation; (3) while some support
multimodal generation, they rely on separate diffusion models for visual
modeling and generation. To mitigate these limitations, we present Anole, an
open, autoregressive, native large multimodal model for interleaved image-text
generation. We build Anole from Meta AI's Chameleon, adopting an innovative
fine-tuning strategy that is both data-efficient and parameter-efficient. Anole
demonstrates high-quality, coherent multimodal generation capabilities. We have
open-sourced our model, training framework, and instruction tuning data.