ChatPaper.aiChatPaper

BLIP3-o : Une famille de modèles multimodaux unifiés entièrement ouverts - Architecture, entraînement et jeu de données

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14, 2025
Auteurs: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI

Résumé

L'unification de la compréhension et de la génération d'images a suscité un intérêt croissant dans les recherches récentes sur les modèles multimodaux. Bien que les choix de conception pour la compréhension d'images aient été largement étudiés, l'architecture optimale du modèle et la recette d'entraînement pour un cadre unifié incluant la génération d'images restent peu explorées. Motivés par le fort potentiel des modèles autorégressifs et de diffusion pour une génération de haute qualité et une grande évolutivité, nous menons une étude approfondie de leur utilisation dans des contextes multimodaux unifiés, en mettant l'accent sur les représentations d'images, les objectifs de modélisation et les stratégies d'entraînement. Sur la base de ces investigations, nous introduisons une nouvelle approche qui utilise un transformeur de diffusion pour générer des caractéristiques d'images CLIP sémantiquement riches, contrairement aux représentations conventionnelles basées sur des VAE. Cette conception offre à la fois une meilleure efficacité d'entraînement et une qualité générative améliorée. De plus, nous démontrons qu'une stratégie de pré-entraînement séquentiel pour les modèles unifiés—d'abord sur la compréhension d'images puis sur la génération d'images—présente des avantages pratiques en préservant la capacité de compréhension d'images tout en développant une forte capacité de génération d'images. Enfin, nous avons soigneusement constitué un ensemble de données de réglage par instructions de haute qualité, BLIP3o-60k, pour la génération d'images en incitant GPT-4o avec un ensemble diversifié de légendes couvrant diverses scènes, objets, gestes humains, et plus encore. En nous appuyant sur notre conception de modèle innovante, notre recette d'entraînement et nos ensembles de données, nous développons BLIP3-o, une suite de modèles multimodaux unifiés de pointe. BLIP3-o obtient des performances supérieures sur la plupart des benchmarks populaires couvrant à la fois les tâches de compréhension et de génération d'images. Pour faciliter les recherches futures, nous rendons entièrement open-source nos modèles, y compris le code, les poids des modèles, les scripts d'entraînement, ainsi que les ensembles de données de pré-entraînement et de réglage par instructions.
English
Unifying image understanding and generation has gained growing attention in recent research on multimodal models. Although design choices for image understanding have been extensively studied, the optimal model architecture and training recipe for a unified framework with image generation remain underexplored. Motivated by the strong potential of autoregressive and diffusion models for high-quality generation and scalability, we conduct a comprehensive study of their use in unified multimodal settings, with emphasis on image representations, modeling objectives, and training strategies. Grounded in these investigations, we introduce a novel approach that employs a diffusion transformer to generate semantically rich CLIP image features, in contrast to conventional VAE-based representations. This design yields both higher training efficiency and improved generative quality. Furthermore, we demonstrate that a sequential pretraining strategy for unified models-first training on image understanding and subsequently on image generation-offers practical advantages by preserving image understanding capability while developing strong image generation ability. Finally, we carefully curate a high-quality instruction-tuning dataset BLIP3o-60k for image generation by prompting GPT-4o with a diverse set of captions covering various scenes, objects, human gestures, and more. Building on our innovative model design, training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art unified multimodal models. BLIP3-o achieves superior performance across most of the popular benchmarks spanning both image understanding and generation tasks. To facilitate future research, we fully open-source our models, including code, model weights, training scripts, and pretraining and instruction tuning datasets.

Summary

AI-Generated Summary

PDF462May 15, 2025