事実分析を用いたビデオキャプションの参照不要評価の進展
Advancing Reference-free Evaluation of Video Captions with Factual Analysis
September 20, 2025
著者: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI
要旨
ビデオキャプションは、ビデオ内のアクター、オブジェクト、およびアクションを簡潔に捉えたものであり、質問応答やイベントのローカライゼーションなどのアプリケーションにおいて貴重な資産となります。しかし、ビデオキャプションのための人間によるアノテーションを取得することはコストがかかるか、特に多様なビデオドメインを扱う場合には非現実的です。既存のモデルは、教師ありデータセットで訓練されていますが、参照ベースの評価プロトコルに依存しているため、異なるドメイン間でのパフォーマンス評価に課題を抱えています。このプロトコルでは、真のキャプションが必要とされますが、これは実際のビデオを評価する際には非現実的な仮定です。これらの制限に対処するため、我々は真のキャプションを必要としない参照フリーの評価フレームワークを提案し、キャプションの品質を正確に評価するために事実に基づいた評価に焦点を当てます。我々は、参照フリーかつ事実に基づいた新しいキャプション品質評価ツールであるVC-Inspectorを紹介します。大規模言語モデルを利用して、教師ありデータに基づいて品質が異なる疑似キャプションを生成し、その後、マルチモーダルモデル(すなわちQwen2.5-VL)を評価ツールとして訓練します。我々のアプローチは、VATEX-Evalデータセットにおいて人間の判断と優れた一致を示し、既存の方法を上回ります。また、画像を1フレームのビデオとして見た場合、Flickr8K-ExpertおよびFlickr8K-CFの画像キャプションデータセットにも一般化されます。全体として、VC-Inspectorは、ビデオキャプションの事実の正確性を評価するためのスケーラブルで汎用的なソリューションを提供し、多様なビデオドメインにおけるより効果的で客観的な評価方法の道を開きます。
English
Video captions offer concise snapshots of actors, objects, and actions within
a video, serving as valuable assets for applications such as question answering
and event localization. However, acquiring human annotations for video captions
is costly or even impractical, especially when dealing with diverse video
domains. Existing models trained on supervised datasets face challenges in
evaluating performance across different domains due to the reliance on
reference-based evaluation protocols, which necessitate ground truth captions.
This assumption is unrealistic for evaluating videos in the wild. To address
these limitations, we propose a reference-free evaluation framework that does
not require ground truth captions, focusing on factual grounding to ensure
accurate assessment of caption quality. We introduce VC-Inspector, a novel
caption quality evaluator that is both reference-free and factually grounded.
Utilizing large language models, we generate pseudo captions of varying quality
based on supervised data, which are subsequently used to train a multimodal
model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior
alignment with human judgments on the VATEX-Eval dataset, outperforming
existing methods. The performance also generalizes to image caption datasets,
Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos.
Overall, VC-Inspector offers a scalable and generalizable solution for
evaluating the factual accuracy of video captions, paving the way for more
effective and objective assessment methodologies in diverse video domains.