Begeleiden van Beeldonderschriftmodellen Richting Specifiekere Onderschriften
Guiding Image Captioning Models Toward More Specific Captions
July 31, 2023
Auteurs: Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen
cs.AI
Samenvatting
Beeldbeschrijving wordt conventioneel geformuleerd als de taak om bijschriften voor afbeeldingen te genereren die overeenkomen met de verdeling van referentie afbeelding-bijschrift paren. Echter, referentiebijschriften in standaard beschrijvingsdatasets zijn kort en identificeren mogelijk niet uniek de afbeeldingen die ze beschrijven. Deze problemen worden verder verergerd wanneer modellen direct worden getraind op afbeelding-alt-tekst paren die van het internet zijn verzameld. In dit werk tonen we aan dat het mogelijk is om specifiekere bijschriften te genereren met minimale aanpassingen aan het trainingsproces. We implementeren classifier-free guidance voor een autoregressief beschrijvingsmodel door het te fine-tunen om zowel conditionele als ongeconditionele verdelingen over bijschriften te schatten. De guidance-schaal die tijdens het decoderen wordt toegepast, beheert een afweging tussen het maximaliseren van p(bijschrift|afbeelding) en p(afbeelding|bijschrift). Vergeleken met standaard gretige decodering, verbetert decodering met een guidance-schaal van 2 aanzienlijk referentievrije metrieken zoals CLIPScore (0.808 vs. 0.775) en de prestaties van bijschrift-naar-afbeelding retrieval in de CLIP-embeddingruimte (recall@1 44.6% vs. 26.5%), maar verslechtert het standaard referentiegebaseerde beschrijvingsmetrieken (bijv., CIDEr 78.6 vs 126.1). We onderzoeken verder het gebruik van taalmodelen om het decodeproces te begeleiden, waarbij we kleine verbeteringen behalen boven de Pareto-grens van referentievrije versus referentiegebaseerde beschrijvingsmetrieken die voortkomt uit classifier-free guidance, en de kwaliteit van bijschriften die gegenereerd worden door een model dat alleen op minimaal gecureerde webdata is getraind, aanzienlijk verbeteren.
English
Image captioning is conventionally formulated as the task of generating
captions for images that match the distribution of reference image-caption
pairs. However, reference captions in standard captioning datasets are short
and may not uniquely identify the images they describe. These problems are
further exacerbated when models are trained directly on image-alt text pairs
collected from the internet. In this work, we show that it is possible to
generate more specific captions with minimal changes to the training process.
We implement classifier-free guidance for an autoregressive captioning model by
fine-tuning it to estimate both conditional and unconditional distributions
over captions. The guidance scale applied at decoding controls a trade-off
between maximizing p(caption|image) and
p(image|caption). Compared to standard greedy decoding,
decoding with a guidance scale of 2 substantially improves reference-free
metrics such as CLIPScore (0.808 vs. 0.775) and captiontoimage retrieval
performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens
standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We
further explore the use of language models to guide the decoding process,
obtaining small improvements over the Pareto frontier of reference-free vs.
reference-based captioning metrics that arises from classifier-free guidance,
and substantially improving the quality of captions generated from a model
trained only on minimally curated web data.