Progrès dans l'évaluation sans référence des descriptions vidéo grâce à l'analyse factuelle
Advancing Reference-free Evaluation of Video Captions with Factual Analysis
September 20, 2025
papers.authors: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI
papers.abstract
Les légendes vidéo offrent des aperçus concis des acteurs, objets et actions présents dans une vidéo, constituant ainsi des ressources précieuses pour des applications telles que la réponse à des questions et la localisation d'événements. Cependant, l'acquisition d'annotations humaines pour les légendes vidéo est coûteuse, voire impraticable, en particulier lorsqu'il s'agit de domaines vidéo variés. Les modèles existants entraînés sur des ensembles de données supervisés rencontrent des difficultés pour évaluer leurs performances à travers différents domaines en raison de leur dépendance à des protocoles d'évaluation basés sur des références, qui nécessitent des légendes de référence. Cette hypothèse est irréaliste pour évaluer des vidéos dans des contextes réels. Pour surmonter ces limitations, nous proposons un cadre d'évaluation sans référence qui ne nécessite pas de légendes de référence, en se concentrant sur l'ancrage factuel pour garantir une évaluation précise de la qualité des légendes. Nous introduisons VC-Inspector, un nouvel évaluateur de qualité de légendes à la fois sans référence et ancré dans les faits. En utilisant des modèles de langage de grande taille, nous générons des légendes pseudo-référentielles de qualité variable basées sur des données supervisées, qui sont ensuite utilisées pour entraîner un modèle multimodal (c'est-à-dire Qwen2.5-VL) en tant qu'évaluateur. Notre approche démontre une meilleure concordance avec les jugements humains sur l'ensemble de données VATEX-Eval, surpassant les méthodes existantes. Les performances se généralisent également aux ensembles de données de légendes d'images, Flickr8K-Expert et Flickr8K-CF, lorsque les images sont considérées comme des vidéos d'une seule image. Globalement, VC-Inspector offre une solution évolutive et généralisable pour évaluer la précision factuelle des légendes vidéo, ouvrant la voie à des méthodologies d'évaluation plus efficaces et objectives dans divers domaines vidéo.
English
Video captions offer concise snapshots of actors, objects, and actions within
a video, serving as valuable assets for applications such as question answering
and event localization. However, acquiring human annotations for video captions
is costly or even impractical, especially when dealing with diverse video
domains. Existing models trained on supervised datasets face challenges in
evaluating performance across different domains due to the reliance on
reference-based evaluation protocols, which necessitate ground truth captions.
This assumption is unrealistic for evaluating videos in the wild. To address
these limitations, we propose a reference-free evaluation framework that does
not require ground truth captions, focusing on factual grounding to ensure
accurate assessment of caption quality. We introduce VC-Inspector, a novel
caption quality evaluator that is both reference-free and factually grounded.
Utilizing large language models, we generate pseudo captions of varying quality
based on supervised data, which are subsequently used to train a multimodal
model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior
alignment with human judgments on the VATEX-Eval dataset, outperforming
existing methods. The performance also generalizes to image caption datasets,
Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos.
Overall, VC-Inspector offers a scalable and generalizable solution for
evaluating the factual accuracy of video captions, paving the way for more
effective and objective assessment methodologies in diverse video domains.