ANOLE : Un modèle multimodal natif, autoregressif et ouvert pour la génération entrelacée d'images et de texte
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation
July 8, 2024
Auteurs: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI
Résumé
Les précédents modèles multimodaux de grande taille (LMMs) open source ont rencontré plusieurs limitations : (1) ils manquent souvent d'intégration native, nécessitant des adaptateurs pour aligner les représentations visuelles avec des modèles de langage de grande taille (LLMs) pré-entraînés ; (2) beaucoup sont limités à la génération unimodale ; (3) bien que certains supportent la génération multimodale, ils reposent sur des modèles de diffusion séparés pour la modélisation et la génération visuelles. Pour atténuer ces limitations, nous présentons Anole, un modèle multimodal de grande taille, ouvert, autorégressif et natif, conçu pour la génération entrelacée d'images et de texte. Nous avons construit Anole à partir de Chameleon de Meta AI, en adoptant une stratégie de fine-tuning innovante, à la fois économe en données et en paramètres. Anole démontre des capacités de génération multimodale de haute qualité et cohérente. Nous avons rendu open source notre modèle, notre cadre d'entraînement et nos données de réglage par instruction.
English
Previous open-source large multimodal models (LMMs) have faced several
limitations: (1) they often lack native integration, requiring adapters to
align visual representations with pre-trained large language models (LLMs); (2)
many are restricted to single-modal generation; (3) while some support
multimodal generation, they rely on separate diffusion models for visual
modeling and generation. To mitigate these limitations, we present Anole, an
open, autoregressive, native large multimodal model for interleaved image-text
generation. We build Anole from Meta AI's Chameleon, adopting an innovative
fine-tuning strategy that is both data-efficient and parameter-efficient. Anole
demonstrates high-quality, coherent multimodal generation capabilities. We have
open-sourced our model, training framework, and instruction tuning data.Summary
AI-Generated Summary