Guidare i modelli di generazione di didascalie verso descrizioni più specifiche

Abstract

La generazione di didascalie per immagini è convenzionalmente formulata come il compito di produrre descrizioni per immagini che corrispondano alla distribuzione delle coppie immagine-didascalia di riferimento. Tuttavia, le didascalie di riferimento nei dataset standard sono brevi e potrebbero non identificare in modo univoco le immagini che descrivono. Questi problemi sono ulteriormente esacerbati quando i modelli vengono addestrati direttamente su coppie immagine-testo alternativo raccolte da internet. In questo lavoro, dimostriamo che è possibile generare didascalie più specifiche con modifiche minime al processo di addestramento. Implementiamo la guida senza classificatore per un modello di generazione di didascalie autoregressivo, ottimizzandolo per stimare sia le distribuzioni condizionali che quelle incondizionali sulle didascalie. La scala di guida applicata durante la decodifica controlla un compromesso tra la massimizzazione di p(didascalia|immagine) e p(immagine|didascalia). Rispetto alla decodifica greedy standard, la decodifica con una scala di guida di 2 migliora sostanzialmente le metriche senza riferimento come CLIPScore (0,808 vs. 0,775) e le prestazioni di recupero immagine-da-didascalia nello spazio di embedding CLIP (recall@1 44,6% vs. 26,5%), ma peggiora le metriche standard di generazione di didascalie basate su riferimento (ad esempio, CIDEr 78,6 vs 126,1). Esploriamo ulteriormente l'uso di modelli linguistici per guidare il processo di decodifica, ottenendo piccoli miglioramenti rispetto alla frontiera di Pareto delle metriche senza riferimento vs. basate su riferimento che emerge dalla guida senza classificatore, e migliorando sostanzialmente la qualità delle didascalie generate da un modello addestrato solo su dati web minimamente curati.

English

Image captioning is conventionally formulated as the task of generating captions for images that match the distribution of reference image-caption pairs. However, reference captions in standard captioning datasets are short and may not uniquely identify the images they describe. These problems are further exacerbated when models are trained directly on image-alt text pairs collected from the internet. In this work, we show that it is possible to generate more specific captions with minimal changes to the training process. We implement classifier-free guidance for an autoregressive captioning model by fine-tuning it to estimate both conditional and unconditional distributions over captions. The guidance scale applied at decoding controls a trade-off between maximizing p(caption|image) and p(image|caption). Compared to standard greedy decoding, decoding with a guidance scale of 2 substantially improves reference-free metrics such as CLIPScore (0.808 vs. 0.775) and captiontoimage retrieval performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We further explore the use of language models to guide the decoding process, obtaining small improvements over the Pareto frontier of reference-free vs. reference-based captioning metrics that arises from classifier-free guidance, and substantially improving the quality of captions generated from a model trained only on minimally curated web data.

Guidare i modelli di generazione di didascalie verso descrizioni più specifiche

Guiding Image Captioning Models Toward More Specific Captions

Abstract

Support