AlignBench: Benchmarking van Fijnmazige Beeld-Text Afstemming met Synthetische Beeld-Bijschrift Paren
AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
November 25, 2025
Auteurs: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI
Samenvatting
Het beoordelen van beeld-tekst uitlijningsmodellen zoals CLIP is cruciaal voor het overbruggen van visuele en linguïstische representaties. Toch vertrouwen bestaande benchmarks op op regels gebaseerde perturbaties of korte bijschriften, wat hun vermogen beperkt om fijnmazige uitlijning te meten. Wij introduceren AlignBench, een benchmark die een nieuwe indicator voor beeld-tekst uitlijning biedt door gedetailleerde beeld-bijschriftparen te evalueren die gegenereerd zijn door diverse beeld-naar-tekst en tekst-naar-beeld modellen. Elke zin is geannoteerd op correctheid, wat een directe beoordeling van VLMs als uitlijningsbeoordelaars mogelijk maakt. Het benchmarken van een breed scala aan decoder-gebaseerde VLMs onthult drie belangrijke bevindingen: (i) CLIP-gebaseerde modellen, zelfs modellen afgestemd op compositioneel redeneren, blijven nagenoeg blind; (ii) detectoren scoren systematisch hoger voor vroege zinnen; en (iii) ze tonen een sterke zelfvoorkeur, waarbij ze hun eigen uitvoer bevoordelen en de detectieprestatie schaden. Onze projectpagina zal beschikbaar zijn op https://dahlian00.github.io/AlignBench/.
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.