La confiance simple au niveau des tokens améliore la justesse des légendes.
Simple Token-Level Confidence Improves Caption Correctness
May 11, 2023
Auteurs: Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
cs.AI
Résumé
La capacité à juger si une légende décrit correctement une image est un aspect crucial de la compréhension vision-langage. Cependant, les modèles de pointe interprètent souvent de manière erronée la justesse des détails fins, ce qui entraîne des erreurs dans les sorties, telles que la génération d'objets hallucinés dans les légendes ou un raisonnement compositionnel médiocre. Dans ce travail, nous explorons la Confiance au Niveau des Tokens (Token-Level Confidence, ou TLC) comme une méthode simple mais étonnamment efficace pour évaluer la justesse des légendes. Plus précisément, nous affinons un modèle vision-langage sur la génération de légendes d'images, nous fournissons une image et une légende proposée au modèle, et nous agrégeons soit des confiances algébriques, soit des confiances apprises au niveau des mots ou des séquences pour estimer la cohérence image-légende. Par rapport aux scores au niveau des séquences issus de modèles pré-entraînés, la TLC avec des mesures de confiance algébriques permet une amélioration relative de 10 % en précision sur la compréhension des verbes dans SVO-Probes et surpasse les performances antérieures de l'état de l'art en scores d'images et de groupes pour le raisonnement compositionnel dans Winoground, avec des améliorations relatives de 37 % et 9 %, respectivement. Lorsque des données d'entraînement sont disponibles, un estimateur de confiance appris offre des performances encore améliorées, réduisant les taux d'hallucination d'objets dans MS COCO Captions de 30 % par rapport au modèle original et établissant un nouvel état de l'art.
English
The ability to judge whether a caption correctly describes an image is a
critical part of vision-language understanding. However, state-of-the-art
models often misinterpret the correctness of fine-grained details, leading to
errors in outputs such as hallucinating objects in generated captions or poor
compositional reasoning. In this work, we explore Token-Level Confidence, or
TLC, as a simple yet surprisingly effective method to assess caption
correctness. Specifically, we fine-tune a vision-language model on image
captioning, input an image and proposed caption to the model, and aggregate
either algebraic or learned token confidences over words or sequences to
estimate image-caption consistency. Compared to sequence-level scores from
pretrained models, TLC with algebraic confidence measures achieves a relative
improvement in accuracy by 10% on verb understanding in SVO-Probes and
outperforms prior state-of-the-art in image and group scores for compositional
reasoning in Winoground by a relative 37% and 9%, respectively. When training
data are available, a learned confidence estimator provides further improved
performance, reducing object hallucination rates in MS COCO Captions by a
relative 30% over the original model and setting a new state-of-the-art.