La semplice confidenza a livello di token migliora la correttezza delle didascalie.
Simple Token-Level Confidence Improves Caption Correctness
May 11, 2023
Autori: Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
cs.AI
Abstract
La capacità di giudicare se una didascalia descrive correttamente un'immagine è un aspetto cruciale della comprensione visivo-linguistica. Tuttavia, i modelli all'avanguardia spesso interpretano erroneamente la correttezza dei dettagli più fini, portando a errori negli output, come l'allucinazione di oggetti nelle didascalie generate o un ragionamento compositivo scadente. In questo lavoro, esploriamo la Fiducia a Livello di Token, o TLC, come un metodo semplice ma sorprendentemente efficace per valutare la correttezza delle didascalie. Nello specifico, ottimizziamo un modello visivo-linguistico per la generazione di didascalie, forniamo al modello un'immagine e una didascalia proposta, e aggregiamo le fiducie algebriche o apprese a livello di token su parole o sequenze per stimare la coerenza tra immagine e didascalia. Rispetto ai punteggi a livello di sequenza dei modelli pre-addestrati, la TLC con misure di fiducia algebriche ottiene un miglioramento relativo del 10% nell'accuratezza nella comprensione dei verbi in SVO-Probes e supera i precedenti risultati all'avanguardia nei punteggi di immagine e gruppo per il ragionamento compositivo in Winoground, rispettivamente del 37% e del 9%. Quando sono disponibili dati di addestramento, un estimatore di fiducia appreso fornisce ulteriori miglioramenti delle prestazioni, riducendo i tassi di allucinazione di oggetti in MS COCO Captions del 30% rispetto al modello originale e stabilendo un nuovo stato dell'arte.
English
The ability to judge whether a caption correctly describes an image is a
critical part of vision-language understanding. However, state-of-the-art
models often misinterpret the correctness of fine-grained details, leading to
errors in outputs such as hallucinating objects in generated captions or poor
compositional reasoning. In this work, we explore Token-Level Confidence, or
TLC, as a simple yet surprisingly effective method to assess caption
correctness. Specifically, we fine-tune a vision-language model on image
captioning, input an image and proposed caption to the model, and aggregate
either algebraic or learned token confidences over words or sequences to
estimate image-caption consistency. Compared to sequence-level scores from
pretrained models, TLC with algebraic confidence measures achieves a relative
improvement in accuracy by 10% on verb understanding in SVO-Probes and
outperforms prior state-of-the-art in image and group scores for compositional
reasoning in Winoground by a relative 37% and 9%, respectively. When training
data are available, a learned confidence estimator provides further improved
performance, reducing object hallucination rates in MS COCO Captions by a
relative 30% over the original model and setting a new state-of-the-art.