Ciò che vedi è ciò che leggi? Migliorare la valutazione dell'allineamento testo-immagine

Abstract

Determinare automaticamente se un testo e un'immagine corrispondente siano semanticamente allineati rappresenta una sfida significativa per i modelli di visione e linguaggio, con applicazioni nei compiti generativi di testo-immagine e immagine-testo. In questo lavoro, studiamo metodi per la valutazione automatica dell'allineamento testo-immagine. Introduciamo innanzitutto SeeTRUE: un insieme di valutazione completo, che abbraccia più dataset provenienti sia da compiti di generazione testo-immagine che immagine-testo, con giudizi umani sull'allineamento semantico di una coppia testo-immagine. Descriviamo poi due metodi automatici per determinare l'allineamento: il primo basato su una pipeline che utilizza modelli di generazione di domande e risposte visive, e il secondo che impiega un approccio di classificazione end-to-end tramite il fine-tuning di modelli preaddestrati multimodali. Entrambi i metodi superano approcci precedenti in vari compiti di allineamento testo-immagine, con miglioramenti significativi nei casi complessi che coinvolgono composizioni intricate o immagini non naturali. Infine, dimostriamo come i nostri approcci possano localizzare specifici disallineamenti tra un'immagine e un dato testo, e come possano essere utilizzati per riordinare automaticamente i candidati nella generazione testo-immagine.

English

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.

Ciò che vedi è ciò che leggi? Migliorare la valutazione dell'allineamento testo-immagine

What You See is What You Read? Improving Text-Image Alignment Evaluation

Abstract

Support