ChatPaper.aiChatPaper

То, что вы видите, — это то, что вы читаете? Улучшение оценки согласованности текста и изображения

What You See is What You Read? Improving Text-Image Alignment Evaluation

May 17, 2023
Авторы: Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor
cs.AI

Аннотация

Автоматическое определение семантической согласованности текста и соответствующего изображения представляет собой значительную задачу для моделей, работающих с визуальными и языковыми данными, с приложениями в задачах генерации текста по изображению и изображения по тексту. В данной работе мы исследуем методы автоматической оценки согласованности текста и изображения. Сначала мы представляем SeeTRUE: комплексный набор для оценки, охватывающий несколько наборов данных из задач генерации текста по изображению и изображения по тексту, с человеческими оценками того, является ли данная пара текст-изображение семантически согласованной. Затем мы описываем два автоматических метода определения согласованности: первый включает конвейер, основанный на генерации вопросов и моделях визуального ответа на вопросы, а второй использует сквозной классификационный подход путем дообучения мультимодальных предобученных моделей. Оба метода превосходят предыдущие подходы в различных задачах согласованности текста и изображения, демонстрируя значительные улучшения в сложных случаях, связанных с комплексной композицией или неестественными изображениями. Наконец, мы показываем, как наши подходы могут локализовать конкретные несоответствия между изображением и заданным текстом, а также как их можно использовать для автоматического переранжирования кандидатов в задаче генерации изображения по тексту.
English
Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.
PDF20December 15, 2024