Synth^2: Potenziamento dei Modelli Visivo-Linguistici con Didascalie Sintetiche e Embedding di Immagini

Abstract

La creazione di dataset di immagini-didascalie di alta qualità etichettati manualmente rappresenta un collo di bottiglia significativo nello sviluppo di modelli visivo-linguistici (VLM). Proponiamo un approccio innovativo che sfrutta i punti di forza dei modelli linguistici di grandi dimensioni (LLM) e dei modelli di generazione di immagini per creare coppie immagine-testo sintetiche, consentendo un addestramento efficiente ed efficace dei VLM. Il nostro metodo prevede il pre-addestramento di un modello testo-immagine per sintetizzare embedding di immagini a partire da didascalie generate da un LLM. Queste coppie sintetiche vengono poi utilizzate per addestrare un VLM. Esperimenti estensivi dimostrano che il VLM addestrato con dati sintetici mostra prestazioni comparabili nel compito di generazione di didascalie, pur richiedendo una frazione dei dati utilizzati da modelli addestrati esclusivamente su dati annotati manualmente. In particolare, superiamo il baseline del 17% attraverso l'aumento con un dataset sintetico. Inoltre, mostriamo che la sintesi nello spazio degli embedding di immagini è il 25% più veloce rispetto a quella nello spazio dei pixel. Questa ricerca introduce una tecnica promettente per generare dataset di immagini su larga scala e personalizzabili, portando a prestazioni migliorate dei VLM e a una maggiore applicabilità in vari domini, tutto con un'efficienza e un utilizzo delle risorse ottimizzati.

English

The creation of high-quality human-labeled image-caption datasets presents a significant bottleneck in the development of Visual-Language Models (VLMs). We propose a novel approach that leverages the strengths of Large Language Models (LLMs) and image generation models to create synthetic image-text pairs for efficient and effective VLM training. Our method employs pretraining a text-to-image model to synthesize image embeddings starting from captions generated by an LLM. These synthetic pairs are then used to train a VLM. Extensive experiments demonstrate that the VLM trained with synthetic data exhibits comparable performance on image captioning, while requiring a fraction of the data used by models trained solely on human-annotated data. In particular, we outperform the baseline by 17% through augmentation with a synthetic dataset. Furthermore, we show that synthesizing in the image embedding space is 25% faster than in the pixel space. This research introduces a promising technique for generating large-scale, customizable image datasets, leading to enhanced VLM performance and wider applicability across various domains, all with improved data efficiency and resource utilization.

Synth^2: Potenziamento dei Modelli Visivo-Linguistici con Didascalie Sintetiche e Embedding di Immagini

Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

Abstract

Support