BLIP3-o: Uma Família de Modelos Multimodais Unificados Totalmente Abertos - Arquitetura, Treinamento e Conjunto de Dados
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
May 14, 2025
Autores: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI
Resumo
A unificação da compreensão e geração de imagens tem ganhado crescente atenção em pesquisas recentes sobre modelos multimodais. Embora as escolhas de design para a compreensão de imagens tenham sido extensivamente estudadas, a arquitetura de modelo ideal e a receita de treinamento para um framework unificado com geração de imagens permanecem pouco exploradas. Motivados pelo forte potencial dos modelos autoregressivos e de difusão para geração de alta qualidade e escalabilidade, conduzimos um estudo abrangente de seu uso em configurações multimodais unificadas, com ênfase em representações de imagens, objetivos de modelagem e estratégias de treinamento. Baseados nessas investigações, introduzimos uma nova abordagem que emprega um transformer de difusão para gerar características de imagem CLIP semanticamente ricas, em contraste com as representações convencionais baseadas em VAE. Esse design resulta em maior eficiência de treinamento e qualidade gerativa aprimorada. Além disso, demonstramos que uma estratégia de pré-treinamento sequencial para modelos unificados — primeiro treinando na compreensão de imagens e subsequentemente na geração de imagens — oferece vantagens práticas ao preservar a capacidade de compreensão de imagens enquanto desenvolve uma forte habilidade de geração de imagens. Por fim, cuidadosamente curamos um conjunto de dados de ajuste fino por instruções de alta qualidade, BLIP3o-60k, para geração de imagens, ao solicitar ao GPT-4o uma diversificada coleção de legendas que abrangem várias cenas, objetos, gestos humanos e mais. Com base em nosso design de modelo inovador, receita de treinamento e conjuntos de dados, desenvolvemos o BLIP3-o, um conjunto de modelos multimodais unificados de última geração. O BLIP3-o alcança desempenho superior na maioria dos benchmarks populares que abrangem tanto tarefas de compreensão quanto de geração de imagens. Para facilitar pesquisas futuras, disponibilizamos totalmente nossos modelos em código aberto, incluindo código, pesos do modelo, scripts de treinamento, e conjuntos de dados de pré-treinamento e ajuste fino por instruções.
English
Unifying image understanding and generation has gained growing attention in
recent research on multimodal models. Although design choices for image
understanding have been extensively studied, the optimal model architecture and
training recipe for a unified framework with image generation remain
underexplored. Motivated by the strong potential of autoregressive and
diffusion models for high-quality generation and scalability, we conduct a
comprehensive study of their use in unified multimodal settings, with emphasis
on image representations, modeling objectives, and training strategies.
Grounded in these investigations, we introduce a novel approach that employs a
diffusion transformer to generate semantically rich CLIP image features, in
contrast to conventional VAE-based representations. This design yields both
higher training efficiency and improved generative quality. Furthermore, we
demonstrate that a sequential pretraining strategy for unified models-first
training on image understanding and subsequently on image generation-offers
practical advantages by preserving image understanding capability while
developing strong image generation ability. Finally, we carefully curate a
high-quality instruction-tuning dataset BLIP3o-60k for image generation by
prompting GPT-4o with a diverse set of captions covering various scenes,
objects, human gestures, and more. Building on our innovative model design,
training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art
unified multimodal models. BLIP3-o achieves superior performance across most of
the popular benchmarks spanning both image understanding and generation tasks.
To facilitate future research, we fully open-source our models, including code,
model weights, training scripts, and pretraining and instruction tuning
datasets.