ChatPaper.aiChatPaper

AlignBench: Valutazione dell'Allineamento Fine-Grained tra Immagini e Testi tramite Coppie Sintetiche Immagine-Didascalia

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

November 25, 2025
Autori: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI

Abstract

La valutazione di modelli di allineamento immagine-testo come CLIP è fondamentale per colmare il divario tra rappresentazioni visive e linguistiche. Tuttavia, i benchmark esistenti si basano su perturbazioni basate su regole o didascalie brevi, limitando la loro capacità di misurare l'allineamento granulare. Presentiamo AlignBench, un benchmark che fornisce un nuovo indicatore di allineamento immagine-testo valutando coppie dettagliate immagine-didascalia generate da modelli diversificati di testo-immagine e immagine-testo. Ogni frase viene annotata per correttezza, consentendo una valutazione diretta dei VLM come valutatori di allineamento. Il benchmarking di un'ampia gamma di VLM basati su decoder rivela tre risultati chiave: (i) i modelli basati su CLIP, anche quelli ottimizzati per ragionamento composizionale, rimangono sostanzialmente ciechi; (ii) i rilevatori sovrastimano sistematicamente le frasi iniziali; e (iii) mostrano una forte autopreferenza, favoriscono i propri output e compromettono le prestazioni di rilevamento. La nostra pagina del progetto sarà disponibile all'indirizzo https://dahlian00.github.io/AlignBench/.
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.
PDF31December 5, 2025