ChatPaper.aiChatPaper

Guiando a los modelos de generación de descripciones de imágenes hacia textos más específicos

Guiding Image Captioning Models Toward More Specific Captions

July 31, 2023
Autores: Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen
cs.AI

Resumen

La generación de descripciones de imágenes se formula convencionalmente como la tarea de crear leyendas para imágenes que coincidan con la distribución de pares imagen-descripción de referencia. Sin embargo, las descripciones de referencia en los conjuntos de datos estándar suelen ser breves y pueden no identificar de manera única las imágenes que describen. Estos problemas se agravan aún más cuando los modelos se entrenan directamente con pares imagen-texto alternativo recopilados de internet. En este trabajo, demostramos que es posible generar descripciones más específicas con cambios mínimos en el proceso de entrenamiento. Implementamos la guía sin clasificador para un modelo autoregresivo de generación de descripciones, ajustándolo para estimar tanto distribuciones condicionales como incondicionales sobre las descripciones. La escala de guía aplicada durante la decodificación controla un equilibrio entre maximizar p(descripción|imagen) y p(imagen|descripción). En comparación con la decodificación codiciosa estándar, la decodificación con una escala de guía de 2 mejora sustancialmente métricas independientes de referencia, como CLIPScore (0.808 vs. 0.775) y el rendimiento de recuperación de imagen a partir de descripción en el espacio de incrustación CLIP (recall@1 44.6% vs. 26.5%), pero empeora las métricas estándar basadas en referencia (por ejemplo, CIDEr 78.6 vs 126.1). Además, exploramos el uso de modelos de lenguaje para guiar el proceso de decodificación, obteniendo pequeñas mejoras sobre la frontera de Pareto de métricas independientes de referencia vs. basadas en referencia que surge de la guía sin clasificador, y mejorando sustancialmente la calidad de las descripciones generadas por un modelo entrenado únicamente con datos web mínimamente curados.
English
Image captioning is conventionally formulated as the task of generating captions for images that match the distribution of reference image-caption pairs. However, reference captions in standard captioning datasets are short and may not uniquely identify the images they describe. These problems are further exacerbated when models are trained directly on image-alt text pairs collected from the internet. In this work, we show that it is possible to generate more specific captions with minimal changes to the training process. We implement classifier-free guidance for an autoregressive captioning model by fine-tuning it to estimate both conditional and unconditional distributions over captions. The guidance scale applied at decoding controls a trade-off between maximizing p(caption|image) and p(image|caption). Compared to standard greedy decoding, decoding with a guidance scale of 2 substantially improves reference-free metrics such as CLIPScore (0.808 vs. 0.775) and captiontoimage retrieval performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We further explore the use of language models to guide the decoding process, obtaining small improvements over the Pareto frontier of reference-free vs. reference-based captioning metrics that arises from classifier-free guidance, and substantially improving the quality of captions generated from a model trained only on minimally curated web data.
PDF162December 15, 2024