Einfache Token-Level-Konfidenz verbessert die Korrektheit von Bildbeschreibungen.
Simple Token-Level Confidence Improves Caption Correctness
May 11, 2023
Autoren: Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
cs.AI
Zusammenfassung
Die Fähigkeit zu beurteilen, ob eine Bildbeschreibung ein Bild korrekt beschreibt, ist ein entscheidender Aspekt des Verständnisses von Vision und Sprache. Allerdings interpretieren state-of-the-art Modelle oft die Korrektheit feingranularer Details falsch, was zu Fehlern in den Ausgaben führt, wie etwa dem Halluzinieren von Objekten in generierten Bildbeschreibungen oder schlechtem kompositionellem Denken. In dieser Arbeit untersuchen wir Token-Level Confidence (TLC) als eine einfache, aber überraschend effektive Methode zur Bewertung der Korrektheit von Bildbeschreibungen. Konkret fine-tunen wir ein Vision-Sprache-Modell für die Bildbeschreibung, geben ein Bild und einen vorgeschlagenen Text in das Modell ein und aggregieren entweder algebraische oder gelernte Token-Confidences über Wörter oder Sequenzen, um die Konsistenz zwischen Bild und Beschreibung zu schätzen. Im Vergleich zu Sequenz-Level-Scores von vortrainierten Modellen erreicht TLC mit algebraischen Confidence-Maßen eine relative Verbesserung der Genauigkeit um 10 % beim Verständnis von Verben in SVO-Probes und übertrifft den bisherigen State-of-the-art in Bild- und Gruppen-Scores für kompositionelles Denken in Winoground um relative 37 % bzw. 9 %. Wenn Trainingsdaten verfügbar sind, bietet ein gelerntes Confidence-Schätzmodell eine weitere Leistungssteigerung und reduziert die Objekthalluzinationsraten in MS COCO Captions um relative 30 % gegenüber dem ursprünglichen Modell, wodurch ein neuer State-of-the-art gesetzt wird.
English
The ability to judge whether a caption correctly describes an image is a
critical part of vision-language understanding. However, state-of-the-art
models often misinterpret the correctness of fine-grained details, leading to
errors in outputs such as hallucinating objects in generated captions or poor
compositional reasoning. In this work, we explore Token-Level Confidence, or
TLC, as a simple yet surprisingly effective method to assess caption
correctness. Specifically, we fine-tune a vision-language model on image
captioning, input an image and proposed caption to the model, and aggregate
either algebraic or learned token confidences over words or sequences to
estimate image-caption consistency. Compared to sequence-level scores from
pretrained models, TLC with algebraic confidence measures achieves a relative
improvement in accuracy by 10% on verb understanding in SVO-Probes and
outperforms prior state-of-the-art in image and group scores for compositional
reasoning in Winoground by a relative 37% and 9%, respectively. When training
data are available, a learned confidence estimator provides further improved
performance, reducing object hallucination rates in MS COCO Captions by a
relative 30% over the original model and setting a new state-of-the-art.