ChatPaper.aiChatPaper

BLIP3-o: Een Familie van Volledig Open, Verenigde Multimodale Modellen - Architectuur, Training en Dataset

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14, 2025
Auteurs: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI

Samenvatting

Het verenigen van beeldbegrip en beeldgeneratie heeft in recent onderzoek naar multimodale modellen steeds meer aandacht gekregen. Hoewel ontwerpkeuzes voor beeldbegrip uitgebreid zijn bestudeerd, blijven de optimale modelarchitectuur en trainingsmethode voor een verenigd framework met beeldgeneratie onderbelicht. Gemotiveerd door het sterke potentieel van autoregressieve en diffusiemodellen voor hoogwaardige generatie en schaalbaarheid, voeren we een uitgebreide studie uit naar hun gebruik in verenigde multimodale settings, met nadruk op beeldrepresentaties, modelleerdoelen en trainingsstrategieën. Gebaseerd op deze onderzoeken introduceren we een nieuwe aanpak die een diffusie-transformer gebruikt om semantisch rijke CLIP-beeldkenmerken te genereren, in tegenstelling tot conventionele VAE-gebaseerde representaties. Dit ontwerp levert zowel een hogere trainings efficiëntie als een verbeterde generatieve kwaliteit op. Bovendien tonen we aan dat een sequentiële voor-trainingsstrategie voor verenigde modellen – eerst trainen op beeldbegrip en vervolgens op beeldgeneratie – praktische voordelen biedt door het behoud van beeldbegripvermogen terwijl een sterke beeldgeneratiecapaciteit wordt ontwikkeld. Ten slotte stellen we zorgvuldig een hoogwaardige instructie-afstemmingsdataset BLIP3o-60k samen voor beeldgeneratie door GPT-4o te voorzien van een diverse set bijschriften die verschillende scènes, objecten, menselijke gebaren en meer omvatten. Gebaseerd op onze innovatieve modelontwerpen, trainingsmethoden en datasets, ontwikkelen we BLIP3-o, een reeks state-of-the-art verenigde multimodale modellen. BLIP3-o behaalt superieure prestaties op de meeste populaire benchmarks die zowel beeldbegrip als beeldgeneratietaken omvatten. Om toekomstig onderzoek te vergemakkelijken, maken we onze modellen volledig open-source, inclusief code, modelgewichten, trainingsscripts en voor-trainings- en instructie-afstemmingsdatasets.
English
Unifying image understanding and generation has gained growing attention in recent research on multimodal models. Although design choices for image understanding have been extensively studied, the optimal model architecture and training recipe for a unified framework with image generation remain underexplored. Motivated by the strong potential of autoregressive and diffusion models for high-quality generation and scalability, we conduct a comprehensive study of their use in unified multimodal settings, with emphasis on image representations, modeling objectives, and training strategies. Grounded in these investigations, we introduce a novel approach that employs a diffusion transformer to generate semantically rich CLIP image features, in contrast to conventional VAE-based representations. This design yields both higher training efficiency and improved generative quality. Furthermore, we demonstrate that a sequential pretraining strategy for unified models-first training on image understanding and subsequently on image generation-offers practical advantages by preserving image understanding capability while developing strong image generation ability. Finally, we carefully curate a high-quality instruction-tuning dataset BLIP3o-60k for image generation by prompting GPT-4o with a diverse set of captions covering various scenes, objects, human gestures, and more. Building on our innovative model design, training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art unified multimodal models. BLIP3-o achieves superior performance across most of the popular benchmarks spanning both image understanding and generation tasks. To facilitate future research, we fully open-source our models, including code, model weights, training scripts, and pretraining and instruction tuning datasets.

Summary

AI-Generated Summary

PDF803May 15, 2025