Avançando na Avaliação de Legendas de Vídeo sem Referência com Análise Factual
Advancing Reference-free Evaluation of Video Captions with Factual Analysis
September 20, 2025
Autores: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI
Resumo
As legendas de vídeo oferecem instantâneos concisos de atores, objetos e ações dentro de um vídeo, servindo como recursos valiosos para aplicações como resposta a perguntas e localização de eventos. No entanto, a aquisição de anotações humanas para legendas de vídeo é custosa ou até mesmo impraticável, especialmente ao lidar com diversos domínios de vídeo. Modelos existentes treinados em conjuntos de dados supervisionados enfrentam desafios na avaliação de desempenho em diferentes domínios devido à dependência de protocolos de avaliação baseados em referência, que exigem legendas de verdade absoluta. Essa suposição é irrealista para avaliar vídeos em cenários reais. Para abordar essas limitações, propomos uma estrutura de avaliação sem referência que não requer legendas de verdade absoluta, focando na fundamentação factual para garantir uma avaliação precisa da qualidade das legendas. Introduzimos o VC-Inspector, um novo avaliador de qualidade de legendas que é tanto sem referência quanto factualmente fundamentado. Utilizando modelos de linguagem de grande escala, geramos legendas pseudo de qualidade variável com base em dados supervisionados, que são subsequentemente usados para treinar um modelo multimodal (ou seja, Qwen2.5-VL) como avaliador. Nossa abordagem demonstra uma alinhamento superior com os julgamentos humanos no conjunto de dados VATEX-Eval, superando métodos existentes. O desempenho também se generaliza para conjuntos de dados de legendas de imagens, Flickr8K-Expert e Flickr8K-CF, ao visualizar imagens como vídeos de 1 quadro. No geral, o VC-Inspector oferece uma solução escalável e generalizável para avaliar a precisão factual de legendas de vídeo, abrindo caminho para metodologias de avaliação mais eficazes e objetivas em diversos domínios de vídeo.
English
Video captions offer concise snapshots of actors, objects, and actions within
a video, serving as valuable assets for applications such as question answering
and event localization. However, acquiring human annotations for video captions
is costly or even impractical, especially when dealing with diverse video
domains. Existing models trained on supervised datasets face challenges in
evaluating performance across different domains due to the reliance on
reference-based evaluation protocols, which necessitate ground truth captions.
This assumption is unrealistic for evaluating videos in the wild. To address
these limitations, we propose a reference-free evaluation framework that does
not require ground truth captions, focusing on factual grounding to ensure
accurate assessment of caption quality. We introduce VC-Inspector, a novel
caption quality evaluator that is both reference-free and factually grounded.
Utilizing large language models, we generate pseudo captions of varying quality
based on supervised data, which are subsequently used to train a multimodal
model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior
alignment with human judgments on the VATEX-Eval dataset, outperforming
existing methods. The performance also generalizes to image caption datasets,
Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos.
Overall, VC-Inspector offers a scalable and generalizable solution for
evaluating the factual accuracy of video captions, paving the way for more
effective and objective assessment methodologies in diverse video domains.