ChatPaper.aiChatPaper

Synth^2 : Amélioration des modèles visio-linguistiques grâce à des légendes synthétiques et des embeddings d'images

Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

March 12, 2024
Auteurs: Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
cs.AI

Résumé

La création de jeux de données d'images-légendes de haute qualité annotés manuellement constitue un goulot d'étranglement majeur dans le développement des modèles visio-linguistiques (VLMs). Nous proposons une approche novatrice qui exploite les atouts des grands modèles de langage (LLMs) et des modèles de génération d'images pour créer des paires image-texte synthétiques, permettant un entraînement efficace et efficient des VLMs. Notre méthode consiste à pré-entraîner un modèle texte-à-image pour synthétiser des embeddings d'images à partir de légendes générées par un LLM. Ces paires synthétiques sont ensuite utilisées pour entraîner un VLM. Des expériences approfondies démontrent que le VLM entraîné avec des données synthétiques présente des performances comparables en génération de légendes d'images, tout en nécessitant une fraction des données utilisées par les modèles entraînés uniquement sur des annotations humaines. En particulier, nous surpassons la référence de 17 % grâce à l'augmentation avec un jeu de données synthétique. De plus, nous montrons que la synthèse dans l'espace des embeddings d'images est 25 % plus rapide que dans l'espace des pixels. Cette recherche introduit une technique prometteuse pour générer des jeux de données d'images à grande échelle et personnalisables, conduisant à une amélioration des performances des VLMs et à une applicabilité plus large dans divers domaines, le tout avec une meilleure efficacité des données et une utilisation optimisée des ressources.
English
The creation of high-quality human-labeled image-caption datasets presents a significant bottleneck in the development of Visual-Language Models (VLMs). We propose a novel approach that leverages the strengths of Large Language Models (LLMs) and image generation models to create synthetic image-text pairs for efficient and effective VLM training. Our method employs pretraining a text-to-image model to synthesize image embeddings starting from captions generated by an LLM. These synthetic pairs are then used to train a VLM. Extensive experiments demonstrate that the VLM trained with synthetic data exhibits comparable performance on image captioning, while requiring a fraction of the data used by models trained solely on human-annotated data. In particular, we outperform the baseline by 17% through augmentation with a synthetic dataset. Furthermore, we show that synthesizing in the image embedding space is 25% faster than in the pixel space. This research introduces a promising technique for generating large-scale, customizable image datasets, leading to enhanced VLM performance and wider applicability across various domains, all with improved data efficiency and resource utilization.

Summary

AI-Generated Summary

PDF241December 15, 2024