xGen-MM (BLIP-3) : Une famille de grands modèles multimodaux ouverts
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
August 16, 2024
Auteurs: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
cs.AI
Résumé
Ce rapport présente xGen-MM (également connu sous le nom de BLIP-3), un cadre pour le développement de modèles multimodaux de grande taille (LMMs). Le cadre comprend des ensembles de données soigneusement sélectionnés, une recette d'entraînement, des architectures de modèles et une suite résultante de LMMs. xGen-MM, abréviation de xGen-MultiModal, étend l'initiative xGen de Salesforce sur les modèles d'IA de base. Nos modèles sont soumis à une évaluation rigoureuse sur une gamme de tâches, incluant des benchmarks sur une seule image et sur plusieurs images. Notre modèle de base pré-entraîné montre de solides capacités d'apprentissage en contexte, et le modèle ajusté aux instructions démontre des performances compétitives parmi les LMMs open-source de tailles similaires. De plus, nous introduisons un modèle ajusté pour la sécurité avec DPO, visant à atténuer les comportements nuisibles tels que les hallucinations et à améliorer la sécurité. Nous rendons open-source nos modèles, les ensembles de données à grande échelle sélectionnés, ainsi que notre base de code de fine-tuning pour faciliter les avancées dans la recherche sur les LMMs. Les ressources associées seront disponibles sur notre page de projet mentionnée ci-dessus.
English
This report introduces xGen-MM (also known as BLIP-3), a framework for
developing Large Multimodal Models (LMMs). The framework comprises meticulously
curated datasets, a training recipe, model architectures, and a resulting suite
of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen
initiative on foundation AI models. Our models undergo rigorous evaluation
across a range of tasks, including both single and multi-image benchmarks. Our
pre-trained base model exhibits strong in-context learning capabilities and the
instruction-tuned model demonstrates competitive performance among open-source
LMMs with similar model sizes. In addition, we introduce a safety-tuned model
with DPO, aiming to mitigate harmful behaviors such as hallucinations and
improve safety. We open-source our models, curated large-scale datasets, and
our fine-tuning codebase to facilitate further advancements in LMM research.
Associated resources will be available on our project page above.Summary
AI-Generated Summary