ChatPaper.aiChatPaper

Progressi nella valutazione senza riferimento delle descrizioni video con analisi fattuale

Advancing Reference-free Evaluation of Video Captions with Factual Analysis

September 20, 2025
Autori: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI

Abstract

Le didascalie video offrono istantanee concise di attori, oggetti e azioni all'interno di un video, rappresentando risorse preziose per applicazioni come il question answering e la localizzazione di eventi. Tuttavia, acquisire annotazioni umane per le didascalie video è costoso o addirittura impraticabile, specialmente quando si ha a che fare con domini video diversificati. I modelli esistenti addestrati su dataset supervisionati affrontano sfide nella valutazione delle prestazioni attraverso diversi domini a causa della dipendenza da protocolli di valutazione basati su riferimenti, che richiedono didascalie di verità di base. Questa ipotesi è irrealistica per la valutazione di video in contesti reali. Per affrontare queste limitazioni, proponiamo un framework di valutazione senza riferimento che non richiede didascalie di verità di base, concentrandosi sul fondamento fattuale per garantire una valutazione accurata della qualità delle didascalie. Introduciamo VC-Inspector, un nuovo valutatore della qualità delle didascalie che è sia senza riferimento che fondato sui fatti. Utilizzando modelli linguistici di grandi dimensioni, generiamo didascalie pseudo di qualità variabile basate su dati supervisionati, che vengono successivamente utilizzate per addestrare un modello multimodale (ad esempio, Qwen2.5-VL) come valutatore. Il nostro approccio dimostra un allineamento superiore con i giudizi umani sul dataset VATEX-Eval, superando i metodi esistenti. Le prestazioni si generalizzano anche ai dataset di didascalie per immagini, Flickr8K-Expert e Flickr8K-CF, quando le immagini vengono considerate come video di 1 fotogramma. Nel complesso, VC-Inspector offre una soluzione scalabile e generalizzabile per valutare l'accuratezza fattuale delle didascalie video, aprendo la strada a metodologie di valutazione più efficaci e oggettive in diversi domini video.
English
Video captions offer concise snapshots of actors, objects, and actions within a video, serving as valuable assets for applications such as question answering and event localization. However, acquiring human annotations for video captions is costly or even impractical, especially when dealing with diverse video domains. Existing models trained on supervised datasets face challenges in evaluating performance across different domains due to the reliance on reference-based evaluation protocols, which necessitate ground truth captions. This assumption is unrealistic for evaluating videos in the wild. To address these limitations, we propose a reference-free evaluation framework that does not require ground truth captions, focusing on factual grounding to ensure accurate assessment of caption quality. We introduce VC-Inspector, a novel caption quality evaluator that is both reference-free and factually grounded. Utilizing large language models, we generate pseudo captions of varying quality based on supervised data, which are subsequently used to train a multimodal model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior alignment with human judgments on the VATEX-Eval dataset, outperforming existing methods. The performance also generalizes to image caption datasets, Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos. Overall, VC-Inspector offers a scalable and generalizable solution for evaluating the factual accuracy of video captions, paving the way for more effective and objective assessment methodologies in diverse video domains.
PDF01September 30, 2025