CaptionQA: Is je bijschrift even nuttig als de afbeelding zelf?
CaptionQA: Is Your Caption as Useful as the Image Itself?
November 26, 2025
Auteurs: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu
cs.AI
Samenvatting
Beeldonderschriften fungeren als efficiënte surrogaten voor visuele inhoud in multimodale systemen zoals retrievalsystemen, aanbevelingssystemen en multi-step agentic inference pipelines. Toch missen huidige evaluatiepraktijken een fundamentele vraag: Kunnen onderschriften daadwerkelijk als vervanging dienen voor afbeeldingen in echte downstreamtaken? Wij stellen een op nut gebaseerde benchmark voor, CaptionQA, om modelgegenereerde onderschriften te evalueren, waarbij de kwaliteit van het onderschrift wordt gemeten door hoe goed het downstreamtaken ondersteunt. CaptionQA is een uitbreidbare domeinafhankelijke benchmark die vier domeinen bestrijkt—Natuurlijk, Document, E-commerce en Embodied AI—elk met fijnmazige taxonomieën (25 op hoofdniveau en 69 subcategorieën) die nuttige informatie identificeren voor domeinspecifieke taken. CaptionQA bouwt 33.027 dicht geannoteerde multiplechoicevragen (gemiddeld 50,3 per afbeelding) die expliciet visuele informatie vereisen om te beantwoorden, wat een uitgebreide verkenning van de bruikbaarheid van onderschriften biedt. In ons evaluatieprotocol beantwoordt een LLM deze vragen uitsluitend met behulp van onderschriften, wat direct meet of onderschriften de utility op afbeeldingsniveau behouden en bruikbaar zijn voor een downstream-LLM. Evaluatie van state-of-the-art MLLM's onthult aanzienlijke verschillen tussen de utility van de afbeelding en die van het bijschrift. Opmerkelijk is dat modellen die nagenoeg identiek presteren op traditionele beeld-QA-benchmarks tot 32% lager scoren op caption utility. Wij geven CaptionQA vrij, samen met een open-source pipeline voor uitbreiding naar nieuwe domeinen. De code is beschikbaar op https://github.com/bronyayang/CaptionQA.
English
Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.