Comprendiendo la Robustez de la Recuperación para la Generación de Subtítulos de Imágenes Mejorada con Recuperación
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning
June 4, 2024
Autores: Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott
cs.AI
Resumen
Los avances recientes en modelos de recuperación mejorados para la generación de subtítulos de imágenes resaltan el beneficio de recuperar subtítulos relacionados para modelos eficientes y ligeros con sólidas capacidades de transferencia de dominio. Aunque estos modelos demuestran el éxito de la mejora mediante recuperación, los modelos de recuperación aún distan de ser perfectos en la práctica: la información recuperada a veces puede inducir al error al modelo, resultando en generaciones incorrectas y un peor rendimiento. En este documento, analizamos la robustez de un modelo de generación de subtítulos mejorado por recuperación llamado SmallCap. Nuestro análisis muestra que el modelo es sensible a los tokens que aparecen en la mayoría de los subtítulos recuperados, y la atribución de entrada muestra que es probable que esos tokens sean copiados en la salida generada. Dados estos hallazgos, proponemos entrenar el modelo mediante la selección de subtítulos recuperados de conjuntos más diversos. Esto reduce la probabilidad de que el modelo aprenda a copiar tokens mayoritarios, y mejora tanto el rendimiento en el dominio como en la transferencia entre dominios.
English
Recent advances in retrieval-augmented models for image captioning highlight
the benefit of retrieving related captions for efficient, lightweight models
with strong domain-transfer capabilities. While these models demonstrate the
success of retrieval augmentation, retrieval models are still far from perfect
in practice: the retrieved information can sometimes mislead the model,
resulting in incorrect generation and worse performance. In this paper, we
analyze the robustness of a retrieval-augmented captioning model SmallCap. Our
analysis shows that the model is sensitive to tokens that appear in the
majority of the retrieved captions, and the input attribution shows that those
tokens are likely copied into the generated output. Given these findings, we
propose to train the model by sampling retrieved captions from more diverse
sets. This decreases the chance that the model learns to copy majority tokens,
and improves both in-domain and cross-domain performance.Summary
AI-Generated Summary