ANOLE: Un Modelo Grande Multimodal Nativo, Abierto y Autoregresivo para la Generación de Imágenes y Texto Entrelazados
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation
July 8, 2024
Autores: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI
Resumen
Los modelos grandes multimodales de código abierto (LMM) anteriores han enfrentado varias limitaciones: (1) a menudo carecen de integración nativa, requiriendo adaptadores para alinear representaciones visuales con modelos de lenguaje grandes pre-entrenados (LLM); (2) muchos están restringidos a generación unimodal; (3) mientras que algunos admiten generación multimodal, dependen de modelos de difusión separados para modelado visual y generación. Para mitigar estas limitaciones, presentamos Anole, un modelo grande multimodal nativo, abierto y autoregresivo para generación de imágenes y texto entrelazados. Construimos Anole a partir de Chameleon de Meta AI, adoptando una estrategia innovadora de ajuste fino que es tanto eficiente en datos como en parámetros. Anole demuestra capacidades de generación multimodal de alta calidad y coherentes. Hemos hecho de código abierto nuestro modelo, marco de entrenamiento y datos de ajuste de instrucciones.
English
Previous open-source large multimodal models (LMMs) have faced several
limitations: (1) they often lack native integration, requiring adapters to
align visual representations with pre-trained large language models (LLMs); (2)
many are restricted to single-modal generation; (3) while some support
multimodal generation, they rely on separate diffusion models for visual
modeling and generation. To mitigate these limitations, we present Anole, an
open, autoregressive, native large multimodal model for interleaved image-text
generation. We build Anole from Meta AI's Chameleon, adopting an innovative
fine-tuning strategy that is both data-efficient and parameter-efficient. Anole
demonstrates high-quality, coherent multimodal generation capabilities. We have
open-sourced our model, training framework, and instruction tuning data.Summary
AI-Generated Summary