BLIP3-o: Een Familie van Volledig Open, Verenigde Multimodale Modellen - Architectuur, Training en Dataset
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
May 14, 2025
Auteurs: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI
Samenvatting
Het verenigen van beeldbegrip en beeldgeneratie heeft in recent onderzoek naar multimodale modellen steeds meer aandacht gekregen. Hoewel ontwerpkeuzes voor beeldbegrip uitgebreid zijn bestudeerd, blijven de optimale modelarchitectuur en trainingsmethode voor een verenigd framework met beeldgeneratie onderbelicht. Gemotiveerd door het sterke potentieel van autoregressieve en diffusiemodellen voor hoogwaardige generatie en schaalbaarheid, voeren we een uitgebreide studie uit naar hun gebruik in verenigde multimodale settings, met nadruk op beeldrepresentaties, modelleerdoelen en trainingsstrategieën. Gebaseerd op deze onderzoeken introduceren we een nieuwe aanpak die een diffusie-transformer gebruikt om semantisch rijke CLIP-beeldkenmerken te genereren, in tegenstelling tot conventionele VAE-gebaseerde representaties. Dit ontwerp levert zowel een hogere trainings efficiëntie als een verbeterde generatieve kwaliteit op. Bovendien tonen we aan dat een sequentiële voor-trainingsstrategie voor verenigde modellen – eerst trainen op beeldbegrip en vervolgens op beeldgeneratie – praktische voordelen biedt door het behoud van beeldbegripvermogen terwijl een sterke beeldgeneratiecapaciteit wordt ontwikkeld. Ten slotte stellen we zorgvuldig een hoogwaardige instructie-afstemmingsdataset BLIP3o-60k samen voor beeldgeneratie door GPT-4o te voorzien van een diverse set bijschriften die verschillende scènes, objecten, menselijke gebaren en meer omvatten. Gebaseerd op onze innovatieve modelontwerpen, trainingsmethoden en datasets, ontwikkelen we BLIP3-o, een reeks state-of-the-art verenigde multimodale modellen. BLIP3-o behaalt superieure prestaties op de meeste populaire benchmarks die zowel beeldbegrip als beeldgeneratietaken omvatten. Om toekomstig onderzoek te vergemakkelijken, maken we onze modellen volledig open-source, inclusief code, modelgewichten, trainingsscripts en voor-trainings- en instructie-afstemmingsdatasets.
English
Unifying image understanding and generation has gained growing attention in
recent research on multimodal models. Although design choices for image
understanding have been extensively studied, the optimal model architecture and
training recipe for a unified framework with image generation remain
underexplored. Motivated by the strong potential of autoregressive and
diffusion models for high-quality generation and scalability, we conduct a
comprehensive study of their use in unified multimodal settings, with emphasis
on image representations, modeling objectives, and training strategies.
Grounded in these investigations, we introduce a novel approach that employs a
diffusion transformer to generate semantically rich CLIP image features, in
contrast to conventional VAE-based representations. This design yields both
higher training efficiency and improved generative quality. Furthermore, we
demonstrate that a sequential pretraining strategy for unified models-first
training on image understanding and subsequently on image generation-offers
practical advantages by preserving image understanding capability while
developing strong image generation ability. Finally, we carefully curate a
high-quality instruction-tuning dataset BLIP3o-60k for image generation by
prompting GPT-4o with a diverse set of captions covering various scenes,
objects, human gestures, and more. Building on our innovative model design,
training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art
unified multimodal models. BLIP3-o achieves superior performance across most of
the popular benchmarks spanning both image understanding and generation tasks.
To facilitate future research, we fully open-source our models, including code,
model weights, training scripts, and pretraining and instruction tuning
datasets.Summary
AI-Generated Summary