CaptionQA: Ist Ihre Bildunterschrift genauso nützlich wie das Bild selbst?
CaptionQA: Is Your Caption as Useful as the Image Itself?
November 26, 2025
papers.authors: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu
cs.AI
papers.abstract
Bildunterschriften dienen in multimodalen Systemen wie Retrieval, Empfehlungssystemen und mehrstufigen agentenbasierten Inferenzpipelines als effiziente Stellvertreter für visuelle Inhalte. Dennoch übersehen aktuelle Evaluierungspraktiken eine grundlegende Frage: Können Bildunterschriften Bilder in echten nachgelagerten Aufgaben tatsächlich ersetzen? Wir schlagen einen nutzenbasierten Benchmark, CaptionQA, vor, um modellgenerierte Bildunterschriften zu evaluieren, wobei die Qualität einer Bildunterschrift daran gemessen wird, wie gut sie nachgelagerte Aufgaben unterstützt. CaptionQA ist ein erweiterbarer, domänenabhängiger Benchmark, der vier Domänen abdeckt – Natur, Dokumente, E-Commerce und Embodied AI – jeweils mit feingranularen Taxonomien (25 Ober- und 69 Unterkategorien), die nützliche Informationen für domänenspezifische Aufgaben identifizieren. CaptionQA umfasst 33.027 dicht annotierte Multiple-Choice-Fragen (durchschnittlich 50,3 pro Bild), die explizit visuelle Informationen zur Beantwortung erfordern und somit eine umfassende Prüfung des Nutzens von Bildunterschriften ermöglichen. In unserem Evaluierungsprotokoll beantwortet ein LLM diese Fragen ausschließlich auf Basis der Bildunterschriften, was direkt misst, ob die Bildunterschriften die Bildinformationen nutzenerhaltend bewahren und von einem nachgelagerten LLM verwertbar sind. Die Evaluation modernster MLLMs zeigt erhebliche Lücken zwischen dem Nutzen des Originalbildes und dem seiner Bildunterschrift auf. Bemerkenswerterweise sinkt der Nutzwert der Bildunterschriften bei Modellen, die auf traditionellen Bild-QA-Benchmarks nahezu identisch abschneiden, um bis zu 32 %. Wir veröffentlichen CaptionQA zusammen mit einer Open-Source-Pipeline zur Erweiterung auf neue Domänen. Der Code ist verfügbar unter https://github.com/bronyayang/CaptionQA.
English
Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.