Synth^2: Verbesserung von Visual-Language-Modellen mit synthetischen Bildunterschriften und Bild-Einbettungen
Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings
March 12, 2024
Autoren: Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
cs.AI
Zusammenfassung
Die Erstellung hochwertiger, von Menschen gelabelter Bildunterschriftsdatensätze stellt einen bedeutenden Engpass bei der Entwicklung von Visual-Language-Modellen (VLMs) dar. Wir schlagen einen innovativen Ansatz vor, der die Stärken großer Sprachmodelle (LLMs) und Bildgenerierungsmodelle nutzt, um synthetische Bild-Text-Paare für eine effiziente und effektive VLM-Schulung zu erstellen. Unsere Methode verwendet das Vortrainieren eines Text-zu-Bild-Modells, um Bild-Einbettungen aus Bildunterschriften zu synthetisieren, die von einem LLM generiert wurden. Diese synthetischen Paare werden dann zur Schulung eines VLMs verwendet. Umfangreiche Experimente zeigen, dass das mit synthetischen Daten trainierte VLM vergleichbare Leistungen bei der Bildunterschrift aufweist, während es nur einen Bruchteil der Daten benötigt, die von Modellen verwendet werden, die ausschließlich auf menschlich annotierten Daten trainiert wurden. Insbesondere übertreffen wir die Basislinie um 17% durch die Erweiterung um einen synthetischen Datensatz. Darüber hinaus zeigen wir, dass die Synthese im Bild-Einbettungsraum um 25% schneller ist als im Pixelraum. Diese Forschung stellt eine vielversprechende Technik zur Erzeugung groß angelegter, anpassbarer Bilddatensätze vor, die zu einer verbesserten Leistung von VLMs und einer breiteren Anwendbarkeit in verschiedenen Bereichen führt, und das alles bei verbesserter Dateneffizienz und Ressourcennutzung.
English
The creation of high-quality human-labeled image-caption datasets presents a
significant bottleneck in the development of Visual-Language Models (VLMs). We
propose a novel approach that leverages the strengths of Large Language Models
(LLMs) and image generation models to create synthetic image-text pairs for
efficient and effective VLM training. Our method employs pretraining a
text-to-image model to synthesize image embeddings starting from captions
generated by an LLM. These synthetic pairs are then used to train a VLM.
Extensive experiments demonstrate that the VLM trained with synthetic data
exhibits comparable performance on image captioning, while requiring a fraction
of the data used by models trained solely on human-annotated data. In
particular, we outperform the baseline by 17% through augmentation with a
synthetic dataset. Furthermore, we show that synthesizing in the image
embedding space is 25% faster than in the pixel space. This research introduces
a promising technique for generating large-scale, customizable image datasets,
leading to enhanced VLM performance and wider applicability across various
domains, all with improved data efficiency and resource utilization.Summary
AI-Generated Summary