사실 분석을 통한 비디오 캡션의 참조 없는 평가 발전
Advancing Reference-free Evaluation of Video Captions with Factual Analysis
September 20, 2025
저자: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI
초록
비디오 캡션은 비디오 내의 배우, 객체, 그리고 행동에 대한 간결한 스냅샷을 제공하며, 질문 응답 및 이벤트 위치 지정과 같은 애플리케이션에 유용한 자산으로 활용됩니다. 그러나 비디오 캡션에 대한 인간 주석을 획득하는 것은 비용이 많이 들거나 심지어 비현실적일 수 있으며, 특히 다양한 비디오 도메인을 다룰 때 더욱 그러합니다. 지도 학습 데이터셋으로 훈련된 기존 모델들은 참조 기반 평가 프로토콜에 의존하기 때문에 다양한 도메인에서의 성능 평가에 어려움을 겪습니다. 이러한 프로토콜은 실제 캡션을 필요로 하며, 이는 실제 환경에서의 비디오 평가에는 비현실적인 가정입니다. 이러한 한계를 해결하기 위해, 우리는 실제 캡션을 필요로 하지 않는 참조 없는 평가 프레임워크를 제안하며, 캡션 품질의 정확한 평가를 보장하기 위해 사실적 근거에 초점을 맞춥니다. 우리는 참조 없이 사실적 근거를 바탕으로 한 새로운 캡션 품질 평가 도구인 VC-Inspector를 소개합니다. 대규모 언어 모델을 활용하여 지도 데이터를 기반으로 다양한 품질의 가짜 캡션을 생성하고, 이를 통해 다중 모달 모델(예: Qwen2.5-VL)을 평가자로 훈련시킵니다. 우리의 접근 방식은 VATEX-Eval 데이터셋에서 인간의 판단과 더 높은 일치도를 보이며, 기존 방법들을 능가합니다. 또한, 이미지를 1프레임 비디오로 간주할 때 Flickr8K-Expert 및 Flickr8K-CF와 같은 이미지 캡션 데이터셋에서도 일반화된 성능을 보입니다. 전반적으로, VC-Inspector는 비디오 캡션의 사실적 정확성을 평가하기 위한 확장 가능하고 일반화 가능한 솔루션을 제공하며, 다양한 비디오 도메인에서 더 효과적이고 객관적인 평가 방법론을 위한 길을 열어줍니다.
English
Video captions offer concise snapshots of actors, objects, and actions within
a video, serving as valuable assets for applications such as question answering
and event localization. However, acquiring human annotations for video captions
is costly or even impractical, especially when dealing with diverse video
domains. Existing models trained on supervised datasets face challenges in
evaluating performance across different domains due to the reliance on
reference-based evaluation protocols, which necessitate ground truth captions.
This assumption is unrealistic for evaluating videos in the wild. To address
these limitations, we propose a reference-free evaluation framework that does
not require ground truth captions, focusing on factual grounding to ensure
accurate assessment of caption quality. We introduce VC-Inspector, a novel
caption quality evaluator that is both reference-free and factually grounded.
Utilizing large language models, we generate pseudo captions of varying quality
based on supervised data, which are subsequently used to train a multimodal
model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior
alignment with human judgments on the VATEX-Eval dataset, outperforming
existing methods. The performance also generalizes to image caption datasets,
Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos.
Overall, VC-Inspector offers a scalable and generalizable solution for
evaluating the factual accuracy of video captions, paving the way for more
effective and objective assessment methodologies in diverse video domains.