ChatPaper.aiChatPaper

Простая уверенность на уровне токенов повышает корректность подписей.

Simple Token-Level Confidence Improves Caption Correctness

May 11, 2023
Авторы: Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
cs.AI

Аннотация

Способность оценивать, правильно ли подпись описывает изображение, является важнейшим аспектом понимания связи между зрением и языком. Однако современные модели часто ошибаются в интерпретации корректности мелких деталей, что приводит к ошибкам в результатах, таким как галлюцинация объектов в генерируемых подписях или слабое композиционное рассуждение. В данной работе мы исследуем метод Token-Level Confidence (TLC) — простой, но удивительно эффективный способ оценки корректности подписей. В частности, мы дообучаем модель, связывающую зрение и язык, на задаче генерации подписей к изображениям, подаем на вход модели изображение и предложенную подпись, а затем агрегируем либо алгебраические, либо обученные оценки уверенности для отдельных слов или последовательностей, чтобы оценить согласованность изображения и подписи. По сравнению с оценками на уровне последовательности, полученными с помощью предобученных моделей, TLC с алгебраическими мерами уверенности демонстрирует относительное улучшение точности на 10% в понимании глаголов в тестах SVO-Probes и превосходит предыдущие передовые результаты в оценках композиционного рассуждения на наборе данных Winoground на 37% и 9% для изображений и групп соответственно. При наличии обучающих данных обученный оценщик уверенности обеспечивает дальнейшее улучшение производительности, снижая частоту галлюцинаций объектов в наборе данных MS COCO Captions на 30% по сравнению с исходной моделью и устанавливая новый эталонный результат.
English
The ability to judge whether a caption correctly describes an image is a critical part of vision-language understanding. However, state-of-the-art models often misinterpret the correctness of fine-grained details, leading to errors in outputs such as hallucinating objects in generated captions or poor compositional reasoning. In this work, we explore Token-Level Confidence, or TLC, as a simple yet surprisingly effective method to assess caption correctness. Specifically, we fine-tune a vision-language model on image captioning, input an image and proposed caption to the model, and aggregate either algebraic or learned token confidences over words or sequences to estimate image-caption consistency. Compared to sequence-level scores from pretrained models, TLC with algebraic confidence measures achieves a relative improvement in accuracy by 10% on verb understanding in SVO-Probes and outperforms prior state-of-the-art in image and group scores for compositional reasoning in Winoground by a relative 37% and 9%, respectively. When training data are available, a learned confidence estimator provides further improved performance, reducing object hallucination rates in MS COCO Captions by a relative 30% over the original model and setting a new state-of-the-art.
PDF10December 15, 2024