ChatPaper.aiChatPaper

Fortschritte bei der referenzfreien Bewertung von Videobeschreibungen durch faktische Analyse

Advancing Reference-free Evaluation of Video Captions with Factual Analysis

September 20, 2025
papers.authors: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi
cs.AI

papers.abstract

Videobeschreibungen bieten prägnante Momentaufnahmen von Akteuren, Objekten und Handlungen innerhalb eines Videos und sind wertvolle Ressourcen für Anwendungen wie Fragebeantwortung und Ereignislokalisierung. Die Beschaffung menschlicher Annotationen für Videobeschreibungen ist jedoch kostspielig oder sogar unpraktisch, insbesondere bei der Bearbeitung verschiedener Videodomänen. Bestehende Modelle, die auf überwachten Datensätzen trainiert wurden, stehen vor Herausforderungen bei der Leistungsbewertung über verschiedene Domänen hinweg, da sie auf referenzbasierte Bewertungsprotokolle angewiesen sind, die Ground-Truth-Beschreibungen erfordern. Diese Annahme ist unrealistisch für die Bewertung von Videos in der freien Wildbahn. Um diese Einschränkungen zu überwinden, schlagen wir ein referenzfreies Bewertungsframework vor, das keine Ground-Truth-Beschreibungen benötigt und sich auf die faktische Verankerung konzentriert, um eine genaue Bewertung der Beschreibungsqualität zu gewährleisten. Wir stellen VC-Inspector vor, einen neuartigen Bewerter für die Qualität von Videobeschreibungen, der sowohl referenzfrei als auch faktisch verankert ist. Unter Verwendung großer Sprachmodelle generieren wir Pseudo-Beschreibungen unterschiedlicher Qualität basierend auf überwachten Daten, die anschließend verwendet werden, um ein multimodales Modell (d.h. Qwen2.5-VL) als Bewerter zu trainieren. Unser Ansatz zeigt eine überlegene Übereinstimmung mit menschlichen Urteilen auf dem VATEX-Eval-Datensatz und übertrifft bestehende Methoden. Die Leistung verallgemeinert sich auch auf Bildbeschreibungsdatensätze, Flickr8K-Expert und Flickr8K-CF, wenn Bilder als 1-Frame-Videos betrachtet werden. Insgesamt bietet VC-Inspector eine skalierbare und verallgemeinerbare Lösung für die Bewertung der faktischen Genauigkeit von Videobeschreibungen und ebnet den Weg für effektivere und objektivere Bewertungsmethoden in verschiedenen Videodomänen.
English
Video captions offer concise snapshots of actors, objects, and actions within a video, serving as valuable assets for applications such as question answering and event localization. However, acquiring human annotations for video captions is costly or even impractical, especially when dealing with diverse video domains. Existing models trained on supervised datasets face challenges in evaluating performance across different domains due to the reliance on reference-based evaluation protocols, which necessitate ground truth captions. This assumption is unrealistic for evaluating videos in the wild. To address these limitations, we propose a reference-free evaluation framework that does not require ground truth captions, focusing on factual grounding to ensure accurate assessment of caption quality. We introduce VC-Inspector, a novel caption quality evaluator that is both reference-free and factually grounded. Utilizing large language models, we generate pseudo captions of varying quality based on supervised data, which are subsequently used to train a multimodal model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior alignment with human judgments on the VATEX-Eval dataset, outperforming existing methods. The performance also generalizes to image caption datasets, Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos. Overall, VC-Inspector offers a scalable and generalizable solution for evaluating the factual accuracy of video captions, paving the way for more effective and objective assessment methodologies in diverse video domains.
PDF01September 30, 2025