BLIP3-o : Une famille de modèles multimodaux unifiés entièrement ouverts - Architecture, entraînement et jeu de donnéesBLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture,
Training and Dataset
L'unification de la compréhension et de la génération d'images a suscité un intérêt croissant dans les recherches récentes sur les modèles multimodaux. Bien que les choix de conception pour la compréhension d'images aient été largement étudiés, l'architecture optimale du modèle et la recette d'entraînement pour un cadre unifié incluant la génération d'images restent peu explorées. Motivés par le fort potentiel des modèles autorégressifs et de diffusion pour une génération de haute qualité et une grande évolutivité, nous menons une étude approfondie de leur utilisation dans des contextes multimodaux unifiés, en mettant l'accent sur les représentations d'images, les objectifs de modélisation et les stratégies d'entraînement. Sur la base de ces investigations, nous introduisons une nouvelle approche qui utilise un transformeur de diffusion pour générer des caractéristiques d'images CLIP sémantiquement riches, contrairement aux représentations conventionnelles basées sur des VAE. Cette conception offre à la fois une meilleure efficacité d'entraînement et une qualité générative améliorée. De plus, nous démontrons qu'une stratégie de pré-entraînement séquentiel pour les modèles unifiés—d'abord sur la compréhension d'images puis sur la génération d'images—présente des avantages pratiques en préservant la capacité de compréhension d'images tout en développant une forte capacité de génération d'images. Enfin, nous avons soigneusement constitué un ensemble de données de réglage par instructions de haute qualité, BLIP3o-60k, pour la génération d'images en incitant GPT-4o avec un ensemble diversifié de légendes couvrant diverses scènes, objets, gestes humains, et plus encore. En nous appuyant sur notre conception de modèle innovante, notre recette d'entraînement et nos ensembles de données, nous développons BLIP3-o, une suite de modèles multimodaux unifiés de pointe. BLIP3-o obtient des performances supérieures sur la plupart des benchmarks populaires couvrant à la fois les tâches de compréhension et de génération d'images. Pour faciliter les recherches futures, nous rendons entièrement open-source nos modèles, y compris le code, les poids des modèles, les scripts d'entraînement, ainsi que les ensembles de données de pré-entraînement et de réglage par instructions.