Synth^2: Verbetering van Visueel-Taalmodellen met Synthetische Bijschriften en Afbeelding-Embeddings
Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings
March 12, 2024
Auteurs: Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
cs.AI
Samenvatting
Het creëren van hoogwaardige, door mensen gelabelde afbeelding-bijschrift datasets vormt een aanzienlijke bottleneck in de ontwikkeling van Visueel-Taalmodellen (VLM's). Wij stellen een nieuwe aanpak voor die de sterke punten van Grote Taalmodellen (LLM's) en afbeeldingsgeneratiemodellen benut om synthetische afbeelding-tekst paren te creëren voor efficiënte en effectieve training van VLM's. Onze methode maakt gebruik van het vooraf trainen van een tekst-naar-afbeelding model om afbeeldingsembeddingen te synthetiseren, uitgaande van bijschriften die gegenereerd zijn door een LLM. Deze synthetische paren worden vervolgens gebruikt om een VLM te trainen. Uitgebreide experimenten tonen aan dat het VLM dat getraind is met synthetische data vergelijkbare prestaties levert op het gebied van afbeelding-bijschrift generatie, terwijl slechts een fractie van de data nodig is die gebruikt wordt door modellen die uitsluitend op door mensen geannoteerde data zijn getraind. In het bijzonder overtreffen we de baseline met 17% door augmentatie met een synthetische dataset. Bovendien laten we zien dat synthetiseren in de afbeeldingsembedding ruimte 25% sneller is dan in de pixelruimte. Dit onderzoek introduceert een veelbelovende techniek voor het genereren van grootschalige, aanpasbare afbeeldingsdatasets, wat leidt tot verbeterde VLM-prestaties en bredere toepasbaarheid in verschillende domeinen, allemaal met verbeterde data-efficiëntie en resourcebenutting.
English
The creation of high-quality human-labeled image-caption datasets presents a
significant bottleneck in the development of Visual-Language Models (VLMs). We
propose a novel approach that leverages the strengths of Large Language Models
(LLMs) and image generation models to create synthetic image-text pairs for
efficient and effective VLM training. Our method employs pretraining a
text-to-image model to synthesize image embeddings starting from captions
generated by an LLM. These synthetic pairs are then used to train a VLM.
Extensive experiments demonstrate that the VLM trained with synthetic data
exhibits comparable performance on image captioning, while requiring a fraction
of the data used by models trained solely on human-annotated data. In
particular, we outperform the baseline by 17% through augmentation with a
synthetic dataset. Furthermore, we show that synthesizing in the image
embedding space is 25% faster than in the pixel space. This research introduces
a promising technique for generating large-scale, customizable image datasets,
leading to enhanced VLM performance and wider applicability across various
domains, all with improved data efficiency and resource utilization.