ChatPaper.aiChatPaper

CaptionQA: Насколько полезны подписи к изображениям по сравнению с самими изображениями?

CaptionQA: Is Your Caption as Useful as the Image Itself?

November 26, 2025
Авторы: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu
cs.AI

Аннотация

Подписи к изображениям служат эффективными суррогатами визуального контента в мультимодальных системах, таких как поисковые механизмы, рекомендательные сервисы и многоэтапные агентные цепочки вывода. Однако современные практики оценки упускают фундаментальный вопрос: могут ли подписи полноценно заменять изображения в реальных прикладных задачах? Мы предлагаем утилитарный бенчмарк CaptionQA для оценки модельных подписей, где качество измеряется по их способности поддерживать решение прикладных задач. CaptionQA представляет собой расширяемый доменно-зависимый бенчмарк, охватывающий 4 области — Естественные сцены, Документы, Электронную коммерцию и Воплощенный ИИ — каждая с детализированными таксономиями (25 верхнеуровневых и 69 подкатегорий), идентифицирующими полезную информацию для доменно-специфичных задач. CaptionQA включает 33 027 плотно размеченных вопросов с множественным выбором (в среднем 50.3 на изображение), для ответа на которые явно требуется визуальная информация, что обеспечивает комплексную проверку полезности подписей. В нашем протоколе оценки ИЯМ отвечает на эти вопросы, используя только подписи, напрямую измеряя, сохраняют ли подписи полезность изображения и пригодны ли они для использования нижестоящим ИЯМ. Оценка передовых MLLM выявляет существенный разрыв между полезностью изображения и его подписи. Примечательно, что модели, показывающие почти идентичные результаты в традиционных бенчмарках «изображение-вопрос», демонстрируют до 32% снижения полезности подписей. Мы публикуем CaptionQA вместе с открытым конвейером для расширения на новые домены. Код доступен по адресу https://github.com/bronyayang/CaptionQA.
English
Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.
PDF41December 2, 2025