ChatPaper.aiChatPaper

BLIP3-o: Una Familia de Modelos Multimodales Unificados Completamente Abiertos - Arquitectura, Entrenamiento y Conjunto de Datos

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14, 2025
Autores: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI

Resumen

La unificación de la comprensión y generación de imágenes ha ganado creciente atención en investigaciones recientes sobre modelos multimodales. Aunque las decisiones de diseño para la comprensión de imágenes han sido ampliamente estudiadas, la arquitectura óptima del modelo y la receta de entrenamiento para un marco unificado con generación de imágenes siguen siendo poco exploradas. Motivados por el fuerte potencial de los modelos autoregresivos y de difusión para la generación de alta calidad y escalabilidad, realizamos un estudio exhaustivo de su uso en entornos multimodales unificados, con énfasis en las representaciones de imágenes, los objetivos de modelado y las estrategias de entrenamiento. Basados en estas investigaciones, introducimos un enfoque novedoso que emplea un transformador de difusión para generar características de imágenes CLIP semánticamente ricas, en contraste con las representaciones convencionales basadas en VAE. Este diseño ofrece tanto una mayor eficiencia en el entrenamiento como una calidad generativa mejorada. Además, demostramos que una estrategia de preentrenamiento secuencial para modelos unificados—primero entrenando en comprensión de imágenes y posteriormente en generación de imágenes—ofrece ventajas prácticas al preservar la capacidad de comprensión de imágenes mientras se desarrolla una fuerte habilidad de generación de imágenes. Finalmente, seleccionamos cuidadosamente un conjunto de datos de ajuste por instrucciones de alta calidad, BLIP3o-60k, para la generación de imágenes, utilizando GPT-4o con un conjunto diverso de descripciones que cubren varias escenas, objetos, gestos humanos y más. Basándonos en nuestro diseño innovador de modelo, receta de entrenamiento y conjuntos de datos, desarrollamos BLIP3-o, una suite de modelos multimodales unificados de última generación. BLIP3-o logra un rendimiento superior en la mayoría de los benchmarks populares que abarcan tanto tareas de comprensión como de generación de imágenes. Para facilitar futuras investigaciones, liberamos completamente nuestros modelos, incluyendo código, pesos del modelo, scripts de entrenamiento, y conjuntos de datos de preentrenamiento y ajuste por instrucciones.
English
Unifying image understanding and generation has gained growing attention in recent research on multimodal models. Although design choices for image understanding have been extensively studied, the optimal model architecture and training recipe for a unified framework with image generation remain underexplored. Motivated by the strong potential of autoregressive and diffusion models for high-quality generation and scalability, we conduct a comprehensive study of their use in unified multimodal settings, with emphasis on image representations, modeling objectives, and training strategies. Grounded in these investigations, we introduce a novel approach that employs a diffusion transformer to generate semantically rich CLIP image features, in contrast to conventional VAE-based representations. This design yields both higher training efficiency and improved generative quality. Furthermore, we demonstrate that a sequential pretraining strategy for unified models-first training on image understanding and subsequently on image generation-offers practical advantages by preserving image understanding capability while developing strong image generation ability. Finally, we carefully curate a high-quality instruction-tuning dataset BLIP3o-60k for image generation by prompting GPT-4o with a diverse set of captions covering various scenes, objects, human gestures, and more. Building on our innovative model design, training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art unified multimodal models. BLIP3-o achieves superior performance across most of the popular benchmarks spanning both image understanding and generation tasks. To facilitate future research, we fully open-source our models, including code, model weights, training scripts, and pretraining and instruction tuning datasets.
PDF943May 15, 2025