BLIP3-o: Eine Familie vollständig offener, einheitlicher multimodaler Modelle – Architektur, Training und Datensatz
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
May 14, 2025
Autoren: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI
Zusammenfassung
Die Vereinheitlichung von Bildverständnis und Bildgenerierung hat in der jüngeren Forschung zu multimodalen Modellen zunehmend Aufmerksamkeit erregt. Obwohl Designentscheidungen für das Bildverständnis umfassend untersucht wurden, bleiben die optimale Modellarchitektur und das Trainingsrezept für einen vereinheitlichten Rahmen mit Bildgenerierung weitgehend unerforscht. Motiviert durch das starke Potenzial von autoregressiven und Diffusionsmodellen für hochwertige Generierung und Skalierbarkeit, führen wir eine umfassende Studie zu deren Einsatz in vereinheitlichten multimodalen Settings durch, mit Schwerpunkt auf Bildrepräsentationen, Modellierungszielen und Trainingsstrategien. Aufbauend auf diesen Untersuchungen stellen wir einen neuartigen Ansatz vor, der einen Diffusionstransformer zur Generierung semantisch reicher CLIP-Bildmerkmale einsetzt, im Gegensatz zu herkömmlichen VAE-basierten Repräsentationen. Dieses Design führt sowohl zu einer höheren Trainingseffizienz als auch zu einer verbesserten Generierungsqualität. Darüber hinaus zeigen wir, dass eine sequenzielle Vorabtrainingsstrategie für vereinheitlichte Modelle – zunächst Training auf Bildverständnis und anschließend auf Bildgenerierung – praktische Vorteile bietet, indem die Fähigkeit zum Bildverständnis erhalten bleibt, während gleichzeitig eine starke Bildgenerierungsfähigkeit entwickelt wird. Schließlich stellen wir sorgfältig einen hochwertigen Instruktions-Tuning-Datensatz BLIP3o-60k für die Bildgenerierung zusammen, indem wir GPT-4o mit einer Vielzahl von Bildbeschreibungen anregen, die verschiedene Szenen, Objekte, menschliche Gesten und mehr abdecken. Aufbauend auf unserem innovativen Modellentwurf, Trainingsrezept und Datensätzen entwickeln wir BLIP3-o, eine Suite von state-of-the-art vereinheitlichten multimodalen Modellen. BLIP3-o erzielt überlegene Leistungen in den meisten der gängigen Benchmarks, die sowohl Bildverständnis- als auch Bildgenerierungsaufgaben umfassen. Um zukünftige Forschung zu erleichtern, stellen wir unsere Modelle vollständig als Open Source zur Verfügung, einschließlich Code, Modellgewichten, Trainingsskripten sowie Vorabtrainings- und Instruktions-Tuning-Datensätzen.
English
Unifying image understanding and generation has gained growing attention in
recent research on multimodal models. Although design choices for image
understanding have been extensively studied, the optimal model architecture and
training recipe for a unified framework with image generation remain
underexplored. Motivated by the strong potential of autoregressive and
diffusion models for high-quality generation and scalability, we conduct a
comprehensive study of their use in unified multimodal settings, with emphasis
on image representations, modeling objectives, and training strategies.
Grounded in these investigations, we introduce a novel approach that employs a
diffusion transformer to generate semantically rich CLIP image features, in
contrast to conventional VAE-based representations. This design yields both
higher training efficiency and improved generative quality. Furthermore, we
demonstrate that a sequential pretraining strategy for unified models-first
training on image understanding and subsequently on image generation-offers
practical advantages by preserving image understanding capability while
developing strong image generation ability. Finally, we carefully curate a
high-quality instruction-tuning dataset BLIP3o-60k for image generation by
prompting GPT-4o with a diverse set of captions covering various scenes,
objects, human gestures, and more. Building on our innovative model design,
training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art
unified multimodal models. BLIP3-o achieves superior performance across most of
the popular benchmarks spanning both image understanding and generation tasks.
To facilitate future research, we fully open-source our models, including code,
model weights, training scripts, and pretraining and instruction tuning
datasets.Summary
AI-Generated Summary