AlignBench: 합성 이미지-캡션 쌍을 활용한 세밀한 이미지-텍스트 정렬 성능 평가
AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
November 25, 2025
저자: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI
초록
이미지-텍스트 정렬 모델(예: CLIP) 평가는 시각적 표현과 언어적 표현 간의 격차를 해소하는 데 중요합니다. 그러나 기존 벤치마크는 규칙 기반 변형이나 짧은 캡션에 의존하여 세부적인 정렬 능력을 측정하는 데 한계가 있습니다. 본 연구에서는 다양한 이미지-텍스트 및 텍스트-이미지 생성 모델이 생성한 상세한 이미지-캡션 쌍을 평가함으로써 이미지-텍스트 정렬에 대한 새로운 지표를 제공하는 벤치마크인 AlignBench를 소개합니다. 각 문장은 정확도에 따라 주석 처리되어 시각언어모델(VLM)을 정렬 평가자로 직접 평가할 수 있습니다. 다양한 디코더 기반 VLM을 벤치마킹한 결과 세 가지 주요 발견점이 도출되었습니다: (i) 구성적 추론에 맞춤화된 모델을 포함한 CLIP 기반 모델들은 여전히 사실상 인식 불능 상태이며, (ii) 검출기들은 체계적으로 초반 문장에 과도한 점수를 부여하며, (iii) 자체 출력을 선호하는 강력한 자기 선호도(self-preference)를 보여 검출 성능을 저해합니다. 프로젝트 페이지는 https://dahlian00.github.io/AlignBench/에서 공개될 예정입니다.
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.