xGen-MM (BLIP-3) : Une famille de grands modèles multimodaux ouvertsxGen-MM (BLIP-3): A Family of Open Large Multimodal Models
Ce rapport présente xGen-MM (également connu sous le nom de BLIP-3), un cadre pour le développement de modèles multimodaux de grande taille (LMMs). Le cadre comprend des ensembles de données soigneusement sélectionnés, une recette d'entraînement, des architectures de modèles et une suite résultante de LMMs. xGen-MM, abréviation de xGen-MultiModal, étend l'initiative xGen de Salesforce sur les modèles d'IA de base. Nos modèles sont soumis à une évaluation rigoureuse sur une gamme de tâches, incluant des benchmarks sur une seule image et sur plusieurs images. Notre modèle de base pré-entraîné montre de solides capacités d'apprentissage en contexte, et le modèle ajusté aux instructions démontre des performances compétitives parmi les LMMs open-source de tailles similaires. De plus, nous introduisons un modèle ajusté pour la sécurité avec DPO, visant à atténuer les comportements nuisibles tels que les hallucinations et à améliorer la sécurité. Nous rendons open-source nos modèles, les ensembles de données à grande échelle sélectionnés, ainsi que notre base de code de fine-tuning pour faciliter les avancées dans la recherche sur les LMMs. Les ressources associées seront disponibles sur notre page de projet mentionnée ci-dessus.