ChatPaper.aiChatPaper

BLIP3-o: Una Famiglia di Modelli Multimodali Unificati Completamente Aperti - Architettura, Addestramento e Dataset

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14, 2025
Autori: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI

Abstract

L'unificazione della comprensione e generazione delle immagini ha attirato crescente attenzione nella ricerca recente sui modelli multimodali. Sebbene le scelte progettuali per la comprensione delle immagini siano state ampiamente studiate, l'architettura ottimale del modello e la ricetta di addestramento per un framework unificato con generazione di immagini rimangono poco esplorate. Motivati dal forte potenziale dei modelli autoregressivi e di diffusione per la generazione di alta qualità e la scalabilità, conduciamo uno studio completo del loro utilizzo in contesti multimodali unificati, con particolare enfasi sulle rappresentazioni delle immagini, sugli obiettivi di modellazione e sulle strategie di addestramento. Basandoci su queste indagini, introduciamo un approccio innovativo che impiega un trasformatore di diffusione per generare caratteristiche di immagini CLIP semanticamente ricche, in contrasto con le rappresentazioni convenzionali basate su VAE. Questo design garantisce sia una maggiore efficienza di addestramento che una migliore qualità generativa. Inoltre, dimostriamo che una strategia di pre-addestramento sequenziale per i modelli unificati - prima l'addestramento sulla comprensione delle immagini e successivamente sulla generazione delle immagini - offre vantaggi pratici preservando la capacità di comprensione delle immagini mentre si sviluppa una forte abilità di generazione. Infine, curiamo con attenzione un dataset di alta qualità per l'ottimizzazione tramite istruzioni, BLIP3o-60k, per la generazione di immagini, utilizzando GPT-4o con un insieme diversificato di didascalie che coprono varie scene, oggetti, gesti umani e altro. Basandoci sul nostro design innovativo del modello, sulla ricetta di addestramento e sui dataset, sviluppiamo BLIP3-o, una suite di modelli multimodali unificati all'avanguardia. BLIP3-o raggiunge prestazioni superiori nella maggior parte dei benchmark popolari che coprono sia compiti di comprensione che di generazione delle immagini. Per facilitare la ricerca futura, rendiamo completamente open-source i nostri modelli, inclusi codice, pesi del modello, script di addestramento e dataset di pre-addestramento e ottimizzazione tramite istruzioni.
English
Unifying image understanding and generation has gained growing attention in recent research on multimodal models. Although design choices for image understanding have been extensively studied, the optimal model architecture and training recipe for a unified framework with image generation remain underexplored. Motivated by the strong potential of autoregressive and diffusion models for high-quality generation and scalability, we conduct a comprehensive study of their use in unified multimodal settings, with emphasis on image representations, modeling objectives, and training strategies. Grounded in these investigations, we introduce a novel approach that employs a diffusion transformer to generate semantically rich CLIP image features, in contrast to conventional VAE-based representations. This design yields both higher training efficiency and improved generative quality. Furthermore, we demonstrate that a sequential pretraining strategy for unified models-first training on image understanding and subsequently on image generation-offers practical advantages by preserving image understanding capability while developing strong image generation ability. Finally, we carefully curate a high-quality instruction-tuning dataset BLIP3o-60k for image generation by prompting GPT-4o with a diverse set of captions covering various scenes, objects, human gestures, and more. Building on our innovative model design, training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art unified multimodal models. BLIP3-o achieves superior performance across most of the popular benchmarks spanning both image understanding and generation tasks. To facilitate future research, we fully open-source our models, including code, model weights, training scripts, and pretraining and instruction tuning datasets.
PDF963May 15, 2025