ChatPaper.aiChatPaper

xGen-MM (BLIP-3): Una Famiglia di Modelli Multimodali Aperti di Grandi Dimensioni

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

August 16, 2024
Autori: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
cs.AI

Abstract

Questo rapporto introduce xGen-MM (noto anche come BLIP-3), un framework per lo sviluppo di Large Multimodal Models (LMM). Il framework comprende dataset accuratamente curati, una ricetta di addestramento, architetture di modelli e una suite risultante di LMM. xGen-MM, abbreviazione di xGen-MultiModal, amplia l'iniziativa Salesforce xGen sui modelli AI di base. I nostri modelli vengono sottoposti a una rigorosa valutazione su una gamma di task, inclusi benchmark su singole e multiple immagini. Il nostro modello base pre-addestrato mostra forti capacità di apprendimento in contesto, mentre il modello ottimizzato per le istruzioni dimostra prestazioni competitive tra gli LMM open-source con dimensioni simili. Inoltre, introduciamo un modello ottimizzato per la sicurezza con DPO, con l'obiettivo di mitigare comportamenti dannosi come le allucinazioni e migliorare la sicurezza. Rendiamo open-source i nostri modelli, i dataset su larga scala curati e il nostro codice di fine-tuning per favorire ulteriori progressi nella ricerca sugli LMM. Le risorse associate saranno disponibili sulla nostra pagina del progetto sopra indicata.
English
This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.
PDF1009November 26, 2024