ChatPaper.aiChatPaper

Synth^2: Aprimorando Modelos Visuais-Linguísticos com Legendas Sintéticas e Incorporações de Imagem

Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

March 12, 2024
Autores: Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
cs.AI

Resumo

A criação de conjuntos de dados de alta qualidade com imagens e legendas rotuladas por humanos representa um gargalo significativo no desenvolvimento de Modelos de Linguagem Visual (VLMs). Propomos uma abordagem inovadora que aproveita os pontos fortes dos Modelos de Linguagem de Grande Escala (LLMs) e dos modelos de geração de imagens para criar pares sintéticos de imagem-texto, permitindo um treinamento eficiente e eficaz de VLMs. Nosso método emprega o pré-treinamento de um modelo de texto para imagem para sintetizar embeddings de imagem a partir de legendas geradas por um LLM. Esses pares sintéticos são então usados para treinar um VLM. Experimentos extensivos demonstram que o VLM treinado com dados sintéticos exibe desempenho comparável na tarefa de legendagem de imagens, enquanto requer uma fração dos dados utilizados por modelos treinados exclusivamente com dados anotados por humanos. Em particular, superamos a linha de base em 17% por meio da ampliação com um conjunto de dados sintético. Além disso, mostramos que a síntese no espaço de embeddings de imagem é 25% mais rápida do que no espaço de pixels. Esta pesquisa introduz uma técnica promissora para gerar conjuntos de dados de imagens em grande escala e personalizáveis, levando a um desempenho aprimorado de VLMs e a uma aplicabilidade mais ampla em diversos domínios, tudo com maior eficiência de dados e utilização de recursos.
English
The creation of high-quality human-labeled image-caption datasets presents a significant bottleneck in the development of Visual-Language Models (VLMs). We propose a novel approach that leverages the strengths of Large Language Models (LLMs) and image generation models to create synthetic image-text pairs for efficient and effective VLM training. Our method employs pretraining a text-to-image model to synthesize image embeddings starting from captions generated by an LLM. These synthetic pairs are then used to train a VLM. Extensive experiments demonstrate that the VLM trained with synthetic data exhibits comparable performance on image captioning, while requiring a fraction of the data used by models trained solely on human-annotated data. In particular, we outperform the baseline by 17% through augmentation with a synthetic dataset. Furthermore, we show that synthesizing in the image embedding space is 25% faster than in the pixel space. This research introduces a promising technique for generating large-scale, customizable image datasets, leading to enhanced VLM performance and wider applicability across various domains, all with improved data efficiency and resource utilization.
PDF231February 8, 2026