ChatPaper.aiChatPaper

AlignBench : Évaluation de l'alignement image-texte granulaire à l'aide de paires image-légende synthétiques

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

November 25, 2025
papers.authors: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI

papers.abstract

L'évaluation des modèles d'alignement image-texte comme CLIP est cruciale pour relier les représentations visuelles et linguistiques. Cependant, les benchmarks existants reposent sur des perturbations basées sur des règles ou des légendes courtes, limitant leur capacité à mesurer l'alignement fin. Nous présentons AlignBench, un benchmark qui fournit un nouvel indicateur d'alignement image-texte en évaluant des paires image-légende détaillées générées par divers modèles image-texte et texte-image. Chaque phrase est annotée pour sa justesse, permettant l'évaluation directe des modèles de vision et langage (VLM) en tant qu'évaluateurs d'alignement. L'analyse comparative d'un large éventail de VLM à décodeur révèle trois résultats clés : (i) les modèles basés sur CLIP, même ceux conçus pour le raisonnement compositionnel, restent quasiment aveugles ; (ii) les détecteurs surestiment systématiquement les premières phrases ; et (iii) ils présentent une forte auto-préférence, favorisant leurs propres sorties et nuisant aux performances de détection. Notre page projet sera disponible à l'adresse https://dahlian00.github.io/AlignBench/.
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.
PDF31December 5, 2025