ANOLE: Ein offenes, autoregressives, natives großes multimodales Modell für die simultane Erzeugung von Bildern und Texten.
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation
July 8, 2024
Autoren: Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu
cs.AI
Zusammenfassung
Bisherige Open-Source-große multimodale Modelle (LMMs) standen vor mehreren Einschränkungen: (1) sie fehlen oft an nativer Integration und erfordern Adapter, um visuelle Darstellungen mit vorab trainierten großen Sprachmodellen (LLMs) abzustimmen; (2) viele sind auf die Generierung in einem einzelnen Modal beschränkt; (3) während einige die multimodale Generierung unterstützen, verlassen sie sich auf separate Diffusionsmodelle für die visuelle Modellierung und Generierung. Um diese Einschränkungen zu mildern, präsentieren wir Anole, ein offenes, autoregressives, natives großes multimodales Modell für die ineinandergreifende Bild-Text-Generierung. Wir bauen Anole auf Meta AI's Chameleon auf und übernehmen eine innovative Feinabstimmungsstrategie, die sowohl dateneffizient als auch parameter-effizient ist. Anole zeigt hochwertige, kohärente multimodale Generierungsfähigkeiten. Wir haben unser Modell, das Schulungsframework und die Anweisungstuning-Daten als Open Source veröffentlicht.
English
Previous open-source large multimodal models (LMMs) have faced several
limitations: (1) they often lack native integration, requiring adapters to
align visual representations with pre-trained large language models (LLMs); (2)
many are restricted to single-modal generation; (3) while some support
multimodal generation, they rely on separate diffusion models for visual
modeling and generation. To mitigate these limitations, we present Anole, an
open, autoregressive, native large multimodal model for interleaved image-text
generation. We build Anole from Meta AI's Chameleon, adopting an innovative
fine-tuning strategy that is both data-efficient and parameter-efficient. Anole
demonstrates high-quality, coherent multimodal generation capabilities. We have
open-sourced our model, training framework, and instruction tuning data.Summary
AI-Generated Summary