BLIP3-o: Eine Familie vollständig offener, einheitlicher multimodaler Modelle – Architektur, Training und DatensatzBLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture,
Training and Dataset
Die Vereinheitlichung von Bildverständnis und Bildgenerierung hat in der jüngeren Forschung zu multimodalen Modellen zunehmend Aufmerksamkeit erregt. Obwohl Designentscheidungen für das Bildverständnis umfassend untersucht wurden, bleiben die optimale Modellarchitektur und das Trainingsrezept für einen vereinheitlichten Rahmen mit Bildgenerierung weitgehend unerforscht. Motiviert durch das starke Potenzial von autoregressiven und Diffusionsmodellen für hochwertige Generierung und Skalierbarkeit, führen wir eine umfassende Studie zu deren Einsatz in vereinheitlichten multimodalen Settings durch, mit Schwerpunkt auf Bildrepräsentationen, Modellierungszielen und Trainingsstrategien. Aufbauend auf diesen Untersuchungen stellen wir einen neuartigen Ansatz vor, der einen Diffusionstransformer zur Generierung semantisch reicher CLIP-Bildmerkmale einsetzt, im Gegensatz zu herkömmlichen VAE-basierten Repräsentationen. Dieses Design führt sowohl zu einer höheren Trainingseffizienz als auch zu einer verbesserten Generierungsqualität. Darüber hinaus zeigen wir, dass eine sequenzielle Vorabtrainingsstrategie für vereinheitlichte Modelle – zunächst Training auf Bildverständnis und anschließend auf Bildgenerierung – praktische Vorteile bietet, indem die Fähigkeit zum Bildverständnis erhalten bleibt, während gleichzeitig eine starke Bildgenerierungsfähigkeit entwickelt wird. Schließlich stellen wir sorgfältig einen hochwertigen Instruktions-Tuning-Datensatz BLIP3o-60k für die Bildgenerierung zusammen, indem wir GPT-4o mit einer Vielzahl von Bildbeschreibungen anregen, die verschiedene Szenen, Objekte, menschliche Gesten und mehr abdecken. Aufbauend auf unserem innovativen Modellentwurf, Trainingsrezept und Datensätzen entwickeln wir BLIP3-o, eine Suite von state-of-the-art vereinheitlichten multimodalen Modellen. BLIP3-o erzielt überlegene Leistungen in den meisten der gängigen Benchmarks, die sowohl Bildverständnis- als auch Bildgenerierungsaufgaben umfassen. Um zukünftige Forschung zu erleichtern, stellen wir unsere Modelle vollständig als Open Source zur Verfügung, einschließlich Code, Modellgewichten, Trainingsskripten sowie Vorabtrainings- und Instruktions-Tuning-Datensätzen.