ChatPaper.aiChatPaper

ANOLE: Een Open, Autoregressief, Native Groot Multimodaal Model voor Geïnterleefde Afbeelding-Tekst Generatie

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

July 8, 2024
Auteurs: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI

Samenvatting

Vorige open-source grote multimodale modellen (LMMs) kampten met verschillende beperkingen: (1) ze missen vaak native integratie, waardoor adapters nodig zijn om visuele representaties af te stemmen op vooraf getrainde grote taalmodellen (LLMs); (2) veel zijn beperkt tot enkelvoudige modale generatie; (3) hoewel sommige multimodale generatie ondersteunen, vertrouwen ze op aparte diffusiemodellen voor visuele modellering en generatie. Om deze beperkingen te verlichten, presenteren we Anole, een open, autoregressief, native groot multimodaal model voor interleaved beeld-tekst generatie. We bouwen Anole op basis van Meta AI's Chameleon, waarbij we een innovatieve fine-tuning strategie toepassen die zowel data-efficiënt als parameter-efficiënt is. Anole toont hoogwaardige, coherente multimodale generatiecapaciteiten. We hebben ons model, het trainingsframework en de instructie-tuningdata open-source gemaakt.
English
Previous open-source large multimodal models (LMMs) have faced several limitations: (1) they often lack native integration, requiring adapters to align visual representations with pre-trained large language models (LLMs); (2) many are restricted to single-modal generation; (3) while some support multimodal generation, they rely on separate diffusion models for visual modeling and generation. To mitigate these limitations, we present Anole, an open, autoregressive, native large multimodal model for interleaved image-text generation. We build Anole from Meta AI's Chameleon, adopting an innovative fine-tuning strategy that is both data-efficient and parameter-efficient. Anole demonstrates high-quality, coherent multimodal generation capabilities. We have open-sourced our model, training framework, and instruction tuning data.
PDF234November 28, 2024