La semplice confidenza a livello di token migliora la correttezza delle didascalie.

Abstract

La capacità di giudicare se una didascalia descrive correttamente un'immagine è un aspetto cruciale della comprensione visivo-linguistica. Tuttavia, i modelli all'avanguardia spesso interpretano erroneamente la correttezza dei dettagli più fini, portando a errori negli output, come l'allucinazione di oggetti nelle didascalie generate o un ragionamento compositivo scadente. In questo lavoro, esploriamo la Fiducia a Livello di Token, o TLC, come un metodo semplice ma sorprendentemente efficace per valutare la correttezza delle didascalie. Nello specifico, ottimizziamo un modello visivo-linguistico per la generazione di didascalie, forniamo al modello un'immagine e una didascalia proposta, e aggregiamo le fiducie algebriche o apprese a livello di token su parole o sequenze per stimare la coerenza tra immagine e didascalia. Rispetto ai punteggi a livello di sequenza dei modelli pre-addestrati, la TLC con misure di fiducia algebriche ottiene un miglioramento relativo del 10% nell'accuratezza nella comprensione dei verbi in SVO-Probes e supera i precedenti risultati all'avanguardia nei punteggi di immagine e gruppo per il ragionamento compositivo in Winoground, rispettivamente del 37% e del 9%. Quando sono disponibili dati di addestramento, un estimatore di fiducia appreso fornisce ulteriori miglioramenti delle prestazioni, riducendo i tassi di allucinazione di oggetti in MS COCO Captions del 30% rispetto al modello originale e stabilendo un nuovo stato dell'arte.

English

The ability to judge whether a caption correctly describes an image is a critical part of vision-language understanding. However, state-of-the-art models often misinterpret the correctness of fine-grained details, leading to errors in outputs such as hallucinating objects in generated captions or poor compositional reasoning. In this work, we explore Token-Level Confidence, or TLC, as a simple yet surprisingly effective method to assess caption correctness. Specifically, we fine-tune a vision-language model on image captioning, input an image and proposed caption to the model, and aggregate either algebraic or learned token confidences over words or sequences to estimate image-caption consistency. Compared to sequence-level scores from pretrained models, TLC with algebraic confidence measures achieves a relative improvement in accuracy by 10% on verb understanding in SVO-Probes and outperforms prior state-of-the-art in image and group scores for compositional reasoning in Winoground by a relative 37% and 9%, respectively. When training data are available, a learned confidence estimator provides further improved performance, reducing object hallucination rates in MS COCO Captions by a relative 30% over the original model and setting a new state-of-the-art.

La semplice confidenza a livello di token migliora la correttezza delle didascalie.

Simple Token-Level Confidence Improves Caption Correctness

Abstract

Support