ChatPaper.aiChatPaper

ANOLE: Un Modello Multimodale Nativo, Autoregressivo e Aperto per la Generazione Intervallata di Immagini e Testi

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

July 8, 2024
Autori: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI

Abstract

I precedenti modelli multimodali di grandi dimensioni (LMM) open-source hanno affrontato diverse limitazioni: (1) spesso mancano di integrazione nativa, richiedendo adattatori per allineare le rappresentazioni visive con modelli linguistici di grandi dimensioni (LLM) pre-addestrati; (2) molti sono limitati alla generazione unimodale; (3) sebbene alcuni supportino la generazione multimodale, si basano su modelli di diffusione separati per la modellazione e la generazione visiva. Per mitigare queste limitazioni, presentiamo Anole, un modello multimodale di grandi dimensioni aperto, autoregressivo e nativo per la generazione intervallata di immagini e testo. Abbiamo costruito Anole a partire da Chameleon di Meta AI, adottando una strategia di fine-tuning innovativa che è sia efficiente in termini di dati che di parametri. Anole dimostra capacità di generazione multimodale di alta qualità e coerente. Abbiamo reso open-source il nostro modello, il framework di addestramento e i dati di regolazione delle istruzioni.
English
Previous open-source large multimodal models (LMMs) have faced several limitations: (1) they often lack native integration, requiring adapters to align visual representations with pre-trained large language models (LLMs); (2) many are restricted to single-modal generation; (3) while some support multimodal generation, they rely on separate diffusion models for visual modeling and generation. To mitigate these limitations, we present Anole, an open, autoregressive, native large multimodal model for interleaved image-text generation. We build Anole from Meta AI's Chameleon, adopting an innovative fine-tuning strategy that is both data-efficient and parameter-efficient. Anole demonstrates high-quality, coherent multimodal generation capabilities. We have open-sourced our model, training framework, and instruction tuning data.
PDF234November 28, 2024