ChatPaper.aiChatPaper

Synth^2: Potenciando Modelos de Lenguaje Visual con Subtítulos Sintéticos e Incrustaciones de Imágenes

Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

March 12, 2024
Autores: Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
cs.AI

Resumen

La creación de conjuntos de datos de imágenes y descripciones etiquetadas por humanos de alta calidad representa un cuello de botella significativo en el desarrollo de Modelos de Lenguaje Visual (VLMs). Proponemos un enfoque novedoso que aprovecha las fortalezas de los Modelos de Lenguaje de Gran Escala (LLMs) y los modelos de generación de imágenes para crear pares sintéticos de imagen-texto destinados al entrenamiento eficiente y efectivo de VLMs. Nuestro método emplea el preentrenamiento de un modelo de texto a imagen para sintetizar incrustaciones de imágenes a partir de descripciones generadas por un LLM. Estos pares sintéticos se utilizan luego para entrenar un VLM. Experimentos exhaustivos demuestran que el VLM entrenado con datos sintéticos exhibe un rendimiento comparable en la generación de descripciones de imágenes, mientras requiere una fracción de los datos utilizados por modelos entrenados exclusivamente con datos anotados por humanos. En particular, superamos la línea base en un 17% mediante la ampliación con un conjunto de datos sintético. Además, mostramos que la síntesis en el espacio de incrustaciones de imágenes es un 25% más rápida que en el espacio de píxeles. Esta investigación introduce una técnica prometedora para generar conjuntos de datos de imágenes a gran escala y personalizables, lo que conduce a un mejor rendimiento de los VLMs y una mayor aplicabilidad en diversos dominios, todo ello con una eficiencia y utilización de recursos mejoradas.
English
The creation of high-quality human-labeled image-caption datasets presents a significant bottleneck in the development of Visual-Language Models (VLMs). We propose a novel approach that leverages the strengths of Large Language Models (LLMs) and image generation models to create synthetic image-text pairs for efficient and effective VLM training. Our method employs pretraining a text-to-image model to synthesize image embeddings starting from captions generated by an LLM. These synthetic pairs are then used to train a VLM. Extensive experiments demonstrate that the VLM trained with synthetic data exhibits comparable performance on image captioning, while requiring a fraction of the data used by models trained solely on human-annotated data. In particular, we outperform the baseline by 17% through augmentation with a synthetic dataset. Furthermore, we show that synthesizing in the image embedding space is 25% faster than in the pixel space. This research introduces a promising technique for generating large-scale, customizable image datasets, leading to enhanced VLM performance and wider applicability across various domains, all with improved data efficiency and resource utilization.

Summary

AI-Generated Summary

PDF241December 15, 2024