BLIP3-o: Een Familie van Volledig Open, Verenigde Multimodale Modellen - Architectuur, Training en DatasetBLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture,
Training and Dataset
Het verenigen van beeldbegrip en beeldgeneratie heeft in recent onderzoek naar multimodale modellen steeds meer aandacht gekregen. Hoewel ontwerpkeuzes voor beeldbegrip uitgebreid zijn bestudeerd, blijven de optimale modelarchitectuur en trainingsmethode voor een verenigd framework met beeldgeneratie onderbelicht. Gemotiveerd door het sterke potentieel van autoregressieve en diffusiemodellen voor hoogwaardige generatie en schaalbaarheid, voeren we een uitgebreide studie uit naar hun gebruik in verenigde multimodale settings, met nadruk op beeldrepresentaties, modelleerdoelen en trainingsstrategieën. Gebaseerd op deze onderzoeken introduceren we een nieuwe aanpak die een diffusie-transformer gebruikt om semantisch rijke CLIP-beeldkenmerken te genereren, in tegenstelling tot conventionele VAE-gebaseerde representaties. Dit ontwerp levert zowel een hogere trainings efficiëntie als een verbeterde generatieve kwaliteit op. Bovendien tonen we aan dat een sequentiële voor-trainingsstrategie voor verenigde modellen – eerst trainen op beeldbegrip en vervolgens op beeldgeneratie – praktische voordelen biedt door het behoud van beeldbegripvermogen terwijl een sterke beeldgeneratiecapaciteit wordt ontwikkeld. Ten slotte stellen we zorgvuldig een hoogwaardige instructie-afstemmingsdataset BLIP3o-60k samen voor beeldgeneratie door GPT-4o te voorzien van een diverse set bijschriften die verschillende scènes, objecten, menselijke gebaren en meer omvatten. Gebaseerd op onze innovatieve modelontwerpen, trainingsmethoden en datasets, ontwikkelen we BLIP3-o, een reeks state-of-the-art verenigde multimodale modellen. BLIP3-o behaalt superieure prestaties op de meeste populaire benchmarks die zowel beeldbegrip als beeldgeneratietaken omvatten. Om toekomstig onderzoek te vergemakkelijken, maken we onze modellen volledig open-source, inclusief code, modelgewichten, trainingsscripts en voor-trainings- en instructie-afstemmingsdatasets.