ChatPaper.aiChatPaper

CaptionQA: キャプションは画像自体と同じくらい有用ですか?

CaptionQA: Is Your Caption as Useful as the Image Itself?

November 26, 2025
著者: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu
cs.AI

要旨

画像キャプションは、検索、推薦、マルチステップエージェント推論パイプラインなどのマルチモーダルシステムにおいて、視覚コンテンツの効率的な代替として機能する。しかし、現在の評価手法は根本的な問いを見落としている:実際の下流タスクにおいて、キャプションは画像の代わりを果たし得るのか?我々は、モデル生成キャプションを評価するための効用ベースのベンチマーク「CaptionQA」を提案する。ここではキャプションの品質が、下流タスクをどれだけ適切に支援するかで測定される。CaptionQAは拡張可能なドメイン依存型ベンチマークであり、自然画像、文書、Eコマース、具身AIの4領域を網羅し、各領域にはドメイン固有タスクに有用な情報を特定する細かな分類体系(25の大カテゴリ、69のサブカテゴリ)が設けられている。CaptionQAは33,027問の密注釈付き多肢選択問題(画像あたり平均50.3問)を構築しており、これらは明示的に視覚情報を必要とするため、キャプションの実用性を包括的に探ることができる。評価プロトコルでは、LLMがキャプションのみを用いてこれらの質問に答えることで、キャプションが画像レベルの実用性を保持し、下流LLMで利用可能かどうかを直接測定する。最先端のMLLMを評価した結果、画像とそのキャプションの実用性には大きな隔たりがあることが明らかになった。特に、従来の画像QAベンチマークでほぼ同等の性能を示すモデルでも、キャプション実用性では最大32%低下することが確認された。我々はCaptionQAと、新領域への拡張のためのオープンソースパイプラインを公開する。コードはhttps://github.com/bronyayang/CaptionQA で入手可能である。
English
Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.
PDF41December 2, 2025