Comprendre la robustesse de la récupération pour la génération de légendes d'images assistée par récupération
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning
June 4, 2024
Auteurs: Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott
cs.AI
Résumé
Les récents progrès des modèles de génération de légendes d'images assistés par recherche mettent en lumière les avantages de la récupération de légendes connexes pour des modèles efficaces, légers et dotés de solides capacités de transfert de domaine. Bien que ces modèles démontrent le succès de l'augmentation par recherche, les modèles de recherche restent loin d'être parfaits en pratique : les informations récupérées peuvent parfois induire le modèle en erreur, entraînant une génération incorrecte et une performance dégradée. Dans cet article, nous analysons la robustesse d'un modèle de génération de légendes assisté par recherche, SmallCap. Notre analyse montre que le modèle est sensible aux tokens qui apparaissent dans la majorité des légendes récupérées, et l'attribution des entrées indique que ces tokens sont susceptibles d'être copiés dans la sortie générée. Compte tenu de ces observations, nous proposons d'entraîner le modèle en échantillonnant des légendes récupérées à partir d'ensembles plus diversifiés. Cela réduit la probabilité que le modèle apprenne à copier les tokens majoritaires et améliore à la fois les performances en domaine et en transfert de domaine.
English
Recent advances in retrieval-augmented models for image captioning highlight
the benefit of retrieving related captions for efficient, lightweight models
with strong domain-transfer capabilities. While these models demonstrate the
success of retrieval augmentation, retrieval models are still far from perfect
in practice: the retrieved information can sometimes mislead the model,
resulting in incorrect generation and worse performance. In this paper, we
analyze the robustness of a retrieval-augmented captioning model SmallCap. Our
analysis shows that the model is sensitive to tokens that appear in the
majority of the retrieved captions, and the input attribution shows that those
tokens are likely copied into the generated output. Given these findings, we
propose to train the model by sampling retrieved captions from more diverse
sets. This decreases the chance that the model learns to copy majority tokens,
and improves both in-domain and cross-domain performance.Summary
AI-Generated Summary