xGen-MM (BLIP-3): Una Famiglia di Modelli Multimodali Aperti di Grandi Dimensioni

Abstract

Questo rapporto introduce xGen-MM (noto anche come BLIP-3), un framework per lo sviluppo di Large Multimodal Models (LMM). Il framework comprende dataset accuratamente curati, una ricetta di addestramento, architetture di modelli e una suite risultante di LMM. xGen-MM, abbreviazione di xGen-MultiModal, amplia l'iniziativa Salesforce xGen sui modelli AI di base. I nostri modelli vengono sottoposti a una rigorosa valutazione su una gamma di task, inclusi benchmark su singole e multiple immagini. Il nostro modello base pre-addestrato mostra forti capacità di apprendimento in contesto, mentre il modello ottimizzato per le istruzioni dimostra prestazioni competitive tra gli LMM open-source con dimensioni simili. Inoltre, introduciamo un modello ottimizzato per la sicurezza con DPO, con l'obiettivo di mitigare comportamenti dannosi come le allucinazioni e migliorare la sicurezza. Rendiamo open-source i nostri modelli, i dataset su larga scala curati e il nostro codice di fine-tuning per favorire ulteriori progressi nella ricerca sugli LMM. Le risorse associate saranno disponibili sulla nostra pagina del progetto sopra indicata.

English

This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.

xGen-MM (BLIP-3): Una Famiglia di Modelli Multimodali Aperti di Grandi Dimensioni

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Abstract

Support