Orienter les modèles de génération de légendes d'images vers des descriptions plus spécifiques
Guiding Image Captioning Models Toward More Specific Captions
July 31, 2023
Auteurs: Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen
cs.AI
Résumé
La génération de légendes d'images est traditionnellement formulée comme la tâche de produire des descriptions d'images correspondant à la distribution des paires image-légende de référence. Cependant, les légendes de référence dans les jeux de données standards sont souvent courtes et peuvent ne pas identifier de manière unique les images qu'elles décrivent. Ces problèmes sont encore exacerbés lorsque les modèles sont entraînés directement sur des paires image-texte alternatif collectées sur internet. Dans ce travail, nous montrons qu'il est possible de générer des légendes plus spécifiques avec des modifications minimales du processus d'entraînement. Nous mettons en œuvre le guidage sans classifieur pour un modèle de génération de légendes autoregressif en l'affinant pour estimer à la fois les distributions conditionnelles et inconditionnelles sur les légendes. L'échelle de guidage appliquée lors du décodage contrôle un compromis entre la maximisation de p(légende|image) et p(image|légende). Par rapport au décodage glouton standard, le décodage avec une échelle de guidage de 2 améliore considérablement les métriques sans référence telles que le CLIPScore (0,808 contre 0,775) et la performance de récupération d'images à partir de légendes dans l'espace d'embedding CLIP (rappel@1 44,6 % contre 26,5 %), mais dégrade les métriques standard de génération de légendes basées sur la référence (par exemple, CIDEr 78,6 contre 126,1). Nous explorons également l'utilisation de modèles de langage pour guider le processus de décodage, obtenant de légères améliorations par rapport à la frontière de Pareto des métriques sans référence versus basées sur la référence résultant du guidage sans classifieur, et améliorant significativement la qualité des légendes générées par un modèle entraîné uniquement sur des données web minimalement curées.
English
Image captioning is conventionally formulated as the task of generating
captions for images that match the distribution of reference image-caption
pairs. However, reference captions in standard captioning datasets are short
and may not uniquely identify the images they describe. These problems are
further exacerbated when models are trained directly on image-alt text pairs
collected from the internet. In this work, we show that it is possible to
generate more specific captions with minimal changes to the training process.
We implement classifier-free guidance for an autoregressive captioning model by
fine-tuning it to estimate both conditional and unconditional distributions
over captions. The guidance scale applied at decoding controls a trade-off
between maximizing p(caption|image) and
p(image|caption). Compared to standard greedy decoding,
decoding with a guidance scale of 2 substantially improves reference-free
metrics such as CLIPScore (0.808 vs. 0.775) and captiontoimage retrieval
performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens
standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We
further explore the use of language models to guide the decoding process,
obtaining small improvements over the Pareto frontier of reference-free vs.
reference-based captioning metrics that arises from classifier-free guidance,
and substantially improving the quality of captions generated from a model
trained only on minimally curated web data.