A Confiança Simples em Nível de Token Melhora a Correção de Legendas
Simple Token-Level Confidence Improves Caption Correctness
May 11, 2023
Autores: Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
cs.AI
Resumo
A capacidade de avaliar se uma legenda descreve corretamente uma imagem é um aspecto crítico da compreensão visão-linguagem. No entanto, modelos de última geração frequentemente interpretam erroneamente a correção de detalhes refinados, levando a erros em saídas, como a alucinação de objetos em legendas geradas ou raciocínio composicional deficiente. Neste trabalho, exploramos a Confiança em Nível de Token, ou TLC, como um método simples, mas surpreendentemente eficaz, para avaliar a correção de legendas. Especificamente, ajustamos finamente um modelo visão-linguagem na tarefa de legendagem de imagens, inserimos uma imagem e uma legenda proposta no modelo, e agregamos confianças algébricas ou aprendidas em tokens sobre palavras ou sequências para estimar a consistência imagem-legenda. Em comparação com pontuações em nível de sequência de modelos pré-treinados, o TLC com medidas de confiança algébrica alcança uma melhoria relativa de 10% na precisão na compreensão de verbos no SVO-Probes e supera o estado da arte anterior em pontuações de imagem e grupo para raciocínio composicional no Winoground em 37% e 9%, respectivamente. Quando dados de treinamento estão disponíveis, um estimador de confiança aprendido oferece um desempenho ainda melhor, reduzindo as taxas de alucinação de objetos nas legendas do MS COCO em 30% em relação ao modelo original e estabelecendo um novo estado da arte.
English
The ability to judge whether a caption correctly describes an image is a
critical part of vision-language understanding. However, state-of-the-art
models often misinterpret the correctness of fine-grained details, leading to
errors in outputs such as hallucinating objects in generated captions or poor
compositional reasoning. In this work, we explore Token-Level Confidence, or
TLC, as a simple yet surprisingly effective method to assess caption
correctness. Specifically, we fine-tune a vision-language model on image
captioning, input an image and proposed caption to the model, and aggregate
either algebraic or learned token confidences over words or sequences to
estimate image-caption consistency. Compared to sequence-level scores from
pretrained models, TLC with algebraic confidence measures achieves a relative
improvement in accuracy by 10% on verb understanding in SVO-Probes and
outperforms prior state-of-the-art in image and group scores for compositional
reasoning in Winoground by a relative 37% and 9%, respectively. When training
data are available, a learned confidence estimator provides further improved
performance, reducing object hallucination rates in MS COCO Captions by a
relative 30% over the original model and setting a new state-of-the-art.