Развитие методов оценки видеоподписей без использования эталонов с помощью анализа фактической точности
Advancing Reference-free Evaluation of Video Captions with Factual Analysis
September 20, 2025
Авторы: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI
Аннотация
Видеоподписи предоставляют краткие описания актеров, объектов и действий в видео, являясь ценным ресурсом для таких задач, как ответы на вопросы и локализация событий. Однако получение аннотаций, созданных человеком, для видеоподписей является дорогостоящим или даже непрактичным, особенно при работе с разнообразными видеодоменами. Существующие модели, обученные на размеченных данных, сталкиваются с трудностями при оценке производительности в различных доменах из-за зависимости от протоколов оценки, основанных на эталонных данных, которые требуют наличия точных подписей. Это предположение нереалистично для оценки видео в реальных условиях. Чтобы устранить эти ограничения, мы предлагаем подход к оценке, не требующий эталонных подписей, сосредоточившись на фактической достоверности для обеспечения точной оценки качества подписей. Мы представляем VC-Inspector — новый инструмент оценки качества подписей, который не требует эталонных данных и основывается на фактической достоверности. Используя крупные языковые модели, мы генерируем псевдоподписи различного качества на основе размеченных данных, которые затем используются для обучения мультимодальной модели (например, Qwen2.5-VL) в качестве оценщика. Наш подход демонстрирует лучшее соответствие человеческим суждениям на наборе данных VATEX-Eval, превосходя существующие методы. Производительность также обобщается на наборы данных для подписей к изображениям, Flickr8K-Expert и Flickr8K-CF, при рассмотрении изображений как видео из одного кадра. В целом, VC-Inspector предлагает масштабируемое и универсальное решение для оценки фактической точности видеоподписей, прокладывая путь к более эффективным и объективным методам оценки в различных видеодоменах.
English
Video captions offer concise snapshots of actors, objects, and actions within
a video, serving as valuable assets for applications such as question answering
and event localization. However, acquiring human annotations for video captions
is costly or even impractical, especially when dealing with diverse video
domains. Existing models trained on supervised datasets face challenges in
evaluating performance across different domains due to the reliance on
reference-based evaluation protocols, which necessitate ground truth captions.
This assumption is unrealistic for evaluating videos in the wild. To address
these limitations, we propose a reference-free evaluation framework that does
not require ground truth captions, focusing on factual grounding to ensure
accurate assessment of caption quality. We introduce VC-Inspector, a novel
caption quality evaluator that is both reference-free and factually grounded.
Utilizing large language models, we generate pseudo captions of varying quality
based on supervised data, which are subsequently used to train a multimodal
model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior
alignment with human judgments on the VATEX-Eval dataset, outperforming
existing methods. The performance also generalizes to image caption datasets,
Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos.
Overall, VC-Inspector offers a scalable and generalizable solution for
evaluating the factual accuracy of video captions, paving the way for more
effective and objective assessment methodologies in diverse video domains.