ChatPaper.aiChatPaper

AlignBench: Тестирование точного соответствия изображения и текста с использованием синтетических пар изображение-подпись

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

November 25, 2025
Авторы: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
cs.AI

Аннотация

Оценка моделей согласования изображений и текста, таких как CLIP, крайне важна для сближения визуальных и лингвистических представлений. Однако существующие бенчмарки опираются на основанные на правилах пертурбации или короткие описания, что ограничивает их способность измерять тонкое согласование. Мы представляем AlignBench — бенчмарк, который предоставляет новый индикатор согласования изображения и текста за счёт оценки детализированных пар «изображение-описание», сгенерированных разнообразными моделями «изображение-текст» и «текст-изображение». Каждое предложение аннотируется на предмет корректности, что позволяет напрямую оценивать VLM-модели в качестве оценщиков согласования. Тестирование широкого спектра VLM-моделей на основе декодеров выявило три ключевых результата: (i) модели на основе CLIP, даже адаптированные для композиционных рассуждений, остаются практически «слепыми»; (ii) детекторы систематически завышают оценку ранним предложениям; и (iii) они демонстрируют сильное самопредпочтение, благоприятствуя собственным выходным данным и ухудшая качество детекции. Страница проекта будет доступна по адресу https://dahlian00.github.io/AlignBench/.
English
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.
PDF31December 5, 2025