Avanzando en la Evaluación sin Referencia de Subtítulos de Video con Análisis Factual
Advancing Reference-free Evaluation of Video Captions with Factual Analysis
September 20, 2025
Autores: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI
Resumen
Los subtítulos de video ofrecen instantáneas concisas de actores, objetos y acciones dentro de un video, sirviendo como recursos valiosos para aplicaciones como la respuesta a preguntas y la localización de eventos. Sin embargo, la adquisición de anotaciones humanas para los subtítulos de video es costosa o incluso poco práctica, especialmente cuando se trata de dominios de video diversos. Los modelos existentes entrenados en conjuntos de datos supervisados enfrentan desafíos al evaluar su rendimiento en diferentes dominios debido a la dependencia de protocolos de evaluación basados en referencias, que requieren subtítulos de verdad fundamental. Esta suposición es poco realista para evaluar videos en entornos no controlados. Para abordar estas limitaciones, proponemos un marco de evaluación sin referencias que no requiere subtítulos de verdad fundamental, centrándose en la fundamentación factual para garantizar una evaluación precisa de la calidad de los subtítulos. Presentamos VC-Inspector, un novedoso evaluador de calidad de subtítulos que es tanto sin referencias como factualmente fundamentado. Utilizando modelos de lenguaje de gran escala, generamos subtítulos pseudo de calidad variable basados en datos supervisados, que posteriormente se utilizan para entrenar un modelo multimodal (es decir, Qwen2.5-VL) como evaluador. Nuestro enfoque demuestra una alineación superior con los juicios humanos en el conjunto de datos VATEX-Eval, superando a los métodos existentes. El rendimiento también se generaliza a conjuntos de datos de subtítulos de imágenes, Flickr8K-Expert y Flickr8K-CF, al considerar las imágenes como videos de un solo fotograma. En general, VC-Inspector ofrece una solución escalable y generalizable para evaluar la precisión factual de los subtítulos de video, allanando el camino para metodologías de evaluación más efectivas y objetivas en diversos dominios de video.
English
Video captions offer concise snapshots of actors, objects, and actions within
a video, serving as valuable assets for applications such as question answering
and event localization. However, acquiring human annotations for video captions
is costly or even impractical, especially when dealing with diverse video
domains. Existing models trained on supervised datasets face challenges in
evaluating performance across different domains due to the reliance on
reference-based evaluation protocols, which necessitate ground truth captions.
This assumption is unrealistic for evaluating videos in the wild. To address
these limitations, we propose a reference-free evaluation framework that does
not require ground truth captions, focusing on factual grounding to ensure
accurate assessment of caption quality. We introduce VC-Inspector, a novel
caption quality evaluator that is both reference-free and factually grounded.
Utilizing large language models, we generate pseudo captions of varying quality
based on supervised data, which are subsequently used to train a multimodal
model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior
alignment with human judgments on the VATEX-Eval dataset, outperforming
existing methods. The performance also generalizes to image caption datasets,
Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos.
Overall, VC-Inspector offers a scalable and generalizable solution for
evaluating the factual accuracy of video captions, paving the way for more
effective and objective assessment methodologies in diverse video domains.