ChatPaper.aiChatPaper

AlignBench: Benchmarking feinabgestimmter Bild-Text-Ausrichtung mit synthetischen Bild-Untertitel-Paaren

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

November 25, 2025
papers.authors: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI

papers.abstract

Die Bewertung von Bild-Text-Alignment-Modellen wie CLIP ist entscheidend für die Überbrückung visueller und linguistischer Repräsentationen. Bisherige Benchmarks stützen sich jedoch auf regelbasierte Perturbationen oder kurze Beschreibungen, was ihre Fähigkeit zur Messung feinkörniger Übereinstimmungen einschränkt. Wir stellen AlignBench vor, einen Benchmark, der durch die Auswertung detaillierter Bild-Beschreibungs-Paare einen neuen Indikator für Bild-Text-Alignment bietet. Diese Paare werden von diversen Bild-zu-Text- und Text-zu-Bild-Modellen generiert. Jeder Satz wird auf Korrektheit annotiert, was eine direkte Bewertung von VLMs als Alignment-Evaluatoren ermöglicht. Die Evaluierung einer Vielzahl decoderbasierter VLMs offenbart drei zentrale Erkenntnisse: (i) CLIP-basierte Modelle – selbst solche für kompositionelles Reasoning – bleiben nahezu blind; (ii) Detektoren bewerten frühe Sätze systematisch über; und (iii) sie zeigen starke Selbstpräferenz, begünstigen eigene Outputs und beeinträchtigen so die Detektionsleistung. Unsere Projektseite wird unter https://dahlian00.github.io/AlignBench/ verfügbar sein.
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.
PDF31December 5, 2025