AlignBench: Avaliação do Alinhamento Fino entre Imagem e Texto com Pares Sintéticos de Imagem-Legenda
AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
November 25, 2025
Autores: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI
Resumo
Avaliar modelos de alinhamento imagem-texto como o CLIP é crucial para unir representações visuais e linguísticas. No entanto, os benchmarks existentes dependem de perturbações baseadas em regras ou legendas curtas, limitando sua capacidade de medir o alinhamento em nível granular. Apresentamos o AlignBench, um benchmark que fornece um novo indicador de alinhamento imagem-texto ao avaliar pares detalhados de imagem-legenda gerados por diversos modelos de imagem-para-texto e texto-para-imagem. Cada frase é anotada quanto à sua correção, permitindo a avaliação direta de Modelos de Linguagem Visual (VLMs) como avaliadores de alinhamento. O benchmarking de uma ampla gama de VLMs baseados em decodificador revela três descobertas principais: (i) modelos baseados no CLIP, mesmo aqueles adaptados para raciocínio composicional, permanecem praticamente cegos; (ii) detectores superavaliam sistematicamente as frases iniciais; e (iii) eles mostram uma forte autopreferência, favorecendo suas próprias saídas e prejudicando o desempenho da detecção. Nossa página do projeto estará disponível em https://dahlian00.github.io/AlignBench/.
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.