AlignBench: Evaluación del Alineamiento Imagen-Texto a Nivel de Granularidad Fina mediante Pares Sintéticos de Imágenes y Subtítulos
AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
November 25, 2025
Autores: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI
Resumen
La evaluación de modelos de alineación imagen-texto como CLIP es crucial para conectar las representaciones visuales y lingüísticas. Sin embargo, los puntos de referencia existentes se basan en perturbaciones basadas en reglas o descripciones breves, lo que limita su capacidad para medir la alineación a nivel granular. Presentamos AlignBench, un benchmark que proporciona un nuevo indicador de alineación imagen-texto mediante la evaluación de pares detallados de imagen-descripción generados por diversos modelos de imagen-a-texto y texto-a-imagen. Cada oración está anotada en cuanto a su corrección, permitiendo la evaluación directa de los Modelos de Lenguaje Visual (VLM) como evaluadores de alineación. La evaluación de una amplia gama de VLM basados en decodificadores revela tres hallazgos clave: (i) los modelos basados en CLIP, incluso aquellos adaptados para razonamiento compositivo, permanecen prácticamente ciegos; (ii) los detectores sobrevaloran sistemáticamente las oraciones iniciales; y (iii) muestran una fuerte autopreferencia, favoreciendo sus propias salidas y perjudicando el rendimiento de la detección. Nuestra página del proyecto estará disponible en https://dahlian00.github.io/AlignBench/.
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.