ChatPaper.aiChatPaper

AlignBench: 合成画像-キャプションペアによる細粒度画像テキスト整合性のベンチマーキング

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

November 25, 2025
著者: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI

要旨

画像とテキストの整合性を評価するCLIPなどのモデルの評価は、視覚的表現と言語的表現の橋渡しにおいて重要である。しかし、既存のベンチマークはルールベースの摂動や短いキャプションに依存しており、細粒度の整合性を測る能力が限られている。本論文ではAlignBenchを提案する。これは多様な画像→テキストモデルおよびテキスト→画像モデルによって生成された詳細な画像とキャプションのペアを評価することで、画像とテキストの整合性に関する新たな指標を提供するベンチマークである。各文は正確性について注釈が付与されており、VLMsを整合性評価器として直接評価することを可能にする。様々なデコーダベースのVLMをベンチマークした結果、以下の3つの主要な知見が得られた:(i) 構成論的推論用に調整されたモデルを含むCLIPベースのモデルは、依然としてほぼ「盲目」の状態である、(ii) 検出器は最初の文を体系的に過大評価する、(iii) 検出器は自身の出力を好む強い自己選好性を示し、検出性能を損なう。プロジェクトページはhttps://dahlian00.github.io/AlignBench/ で公開予定である。
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.
PDF31December 5, 2025