La confianza simple a nivel de token mejora la corrección de los subtítulos.
Simple Token-Level Confidence Improves Caption Correctness
May 11, 2023
Autores: Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
cs.AI
Resumen
La capacidad de juzgar si un pie de foto describe correctamente una imagen es una parte fundamental de la comprensión visión-lenguaje. Sin embargo, los modelos de última generación a menudo malinterpretan la corrección de detalles específicos, lo que lleva a errores en las salidas, como la alucinación de objetos en los pies de foto generados o un razonamiento composicional deficiente. En este trabajo, exploramos la Confianza a Nivel de Token, o TLC por sus siglas en inglés, como un método simple pero sorprendentemente efectivo para evaluar la corrección de los pies de foto. Específicamente, ajustamos un modelo visión-lenguaje en la tarea de generación de pies de foto, introducimos una imagen y un pie de foto propuesto al modelo, y agregamos confianzas algebraicas o aprendidas a nivel de token sobre palabras o secuencias para estimar la consistencia entre la imagen y el pie de foto. En comparación con las puntuaciones a nivel de secuencia de modelos preentrenados, TLC con medidas de confianza algebraicas logra una mejora relativa en precisión del 10% en la comprensión de verbos en SVO-Probes y supera al estado del arte anterior en puntuaciones de imagen y grupo para el razonamiento composicional en Winoground en un 37% y 9% relativo, respectivamente. Cuando hay datos de entrenamiento disponibles, un estimador de confianza aprendido proporciona un rendimiento aún mejor, reduciendo las tasas de alucinación de objetos en MS COCO Captions en un 30% relativo sobre el modelo original y estableciendo un nuevo estado del arte.
English
The ability to judge whether a caption correctly describes an image is a
critical part of vision-language understanding. However, state-of-the-art
models often misinterpret the correctness of fine-grained details, leading to
errors in outputs such as hallucinating objects in generated captions or poor
compositional reasoning. In this work, we explore Token-Level Confidence, or
TLC, as a simple yet surprisingly effective method to assess caption
correctness. Specifically, we fine-tune a vision-language model on image
captioning, input an image and proposed caption to the model, and aggregate
either algebraic or learned token confidences over words or sequences to
estimate image-caption consistency. Compared to sequence-level scores from
pretrained models, TLC with algebraic confidence measures achieves a relative
improvement in accuracy by 10% on verb understanding in SVO-Probes and
outperforms prior state-of-the-art in image and group scores for compositional
reasoning in Winoground by a relative 37% and 9%, respectively. When training
data are available, a learned confidence estimator provides further improved
performance, reducing object hallucination rates in MS COCO Captions by a
relative 30% over the original model and setting a new state-of-the-art.