ChatPaper.aiChatPaper

Het bevorderen van referentievrije evaluatie van videobijschriften met feitelijke analyse

Advancing Reference-free Evaluation of Video Captions with Factual Analysis

September 20, 2025
Auteurs: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI

Samenvatting

Video-ondertitels bieden beknopte momentopnamen van acteurs, objecten en acties binnen een video, en zijn waardevolle hulpmiddelen voor toepassingen zoals vraagbeantwoording en gebeurtenislokalisatie. Het verkrijgen van menselijke annotaties voor video-ondertitels is echter kostbaar of zelfs onpraktisch, vooral bij het omgaan met diverse videodomeinen. Bestaande modellen die getraind zijn op begeleide datasets, ondervinden uitdagingen bij het evalueren van prestaties over verschillende domeinen vanwege de afhankelijkheid van referentiegebaseerde evaluatieprotocollen, die grondwaarheid-ondertitels vereisen. Deze aanname is onrealistisch voor het evalueren van video's in het wild. Om deze beperkingen aan te pakken, stellen we een referentievrij evaluatiekader voor dat geen grondwaarheid-ondertitels vereist, met een focus op feitelijke onderbouwing om een nauwkeurige beoordeling van de ondertitelkwaliteit te waarborgen. We introduceren VC-Inspector, een innovatieve ondertitelkwaliteitsevaluator die zowel referentievrij als feitelijk onderbouwd is. Door gebruik te maken van grote taalmodellen, genereren we pseudo-ondertitels van variërende kwaliteit op basis van begeleide data, die vervolgens worden gebruikt om een multimodaal model (d.w.z. Qwen2.5-VL) te trainen als evaluator. Onze aanpak toont een superieure afstemming met menselijke oordelen op de VATEX-Eval dataset, en overtreft bestaande methoden. De prestaties generaliseren ook naar beeldondertitel-datasets, Flickr8K-Expert en Flickr8K-CF, wanneer afbeeldingen worden gezien als 1-frame video's. Over het algemeen biedt VC-Inspector een schaalbare en generaliseerbare oplossing voor het evalueren van de feitelijke nauwkeurigheid van video-ondertitels, en baant zo de weg voor effectievere en objectievere beoordelingsmethodologieën in diverse videodomeinen.
English
Video captions offer concise snapshots of actors, objects, and actions within a video, serving as valuable assets for applications such as question answering and event localization. However, acquiring human annotations for video captions is costly or even impractical, especially when dealing with diverse video domains. Existing models trained on supervised datasets face challenges in evaluating performance across different domains due to the reliance on reference-based evaluation protocols, which necessitate ground truth captions. This assumption is unrealistic for evaluating videos in the wild. To address these limitations, we propose a reference-free evaluation framework that does not require ground truth captions, focusing on factual grounding to ensure accurate assessment of caption quality. We introduce VC-Inspector, a novel caption quality evaluator that is both reference-free and factually grounded. Utilizing large language models, we generate pseudo captions of varying quality based on supervised data, which are subsequently used to train a multimodal model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior alignment with human judgments on the VATEX-Eval dataset, outperforming existing methods. The performance also generalizes to image caption datasets, Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos. Overall, VC-Inspector offers a scalable and generalizable solution for evaluating the factual accuracy of video captions, paving the way for more effective and objective assessment methodologies in diverse video domains.
PDF01September 30, 2025