ChatPaper.aiChatPaper

Wie sicher sind Videomodelle? Videomodelle befähigen, ihre Unsicherheit auszudrücken

How Confident are Video Models? Empowering Video Models to Express their Uncertainty

October 2, 2025
papers.authors: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
cs.AI

papers.abstract

Generative Videomodelle demonstrieren beeindruckende Text-zu-Video-Fähigkeiten, was ihre weitverbreitete Anwendung in vielen realen Anwendungen vorantreibt. Ähnlich wie große Sprachmodelle (LLMs) neigen jedoch auch Videogenerierungsmodelle dazu, Halluzinationen zu erzeugen, indem sie plausible Videos produzieren, selbst wenn diese faktisch falsch sind. Obwohl die Unsicherheitsquantifizierung (UQ) von LLMs in früheren Arbeiten ausführlich untersucht wurde, existiert keine UQ-Methode für Videomodelle, was kritische Sicherheitsbedenken aufwirft. Unseres Wissens stellt diese Arbeit die erste Forschung zur Quantifizierung der Unsicherheit von Videomodellen dar. Wir präsentieren ein Framework zur Unsicherheitsquantifizierung von generativen Videomodellen, das besteht aus: (i) einer Metrik zur Bewertung der Kalibrierung von Videomodellen basierend auf robuster Rangkorrelationsschätzung ohne strenge Modellierungsannahmen; (ii) einer Black-Box-UQ-Methode für Videomodelle (bezeichnet als S-QUBED), die latente Modellierung nutzt, um die prädiktive Unsicherheit rigoros in ihre aleatorischen und epistemischen Komponenten zu zerlegen; und (iii) einem UQ-Datensatz, um die Kalibrierung in Videomodellen zu benchmarken. Durch die Konditionierung der Generierungsaufgabe im latenten Raum entwirren wir Unsicherheiten, die aufgrund vager Aufgabenbeschreibungen entstehen, von solchen, die auf mangelndem Wissen beruhen. Durch umfangreiche Experimente mit Benchmark-Videodatensätzen zeigen wir, dass S-QUBED kalibrierte Gesamtunsicherheitsschätzungen berechnet, die negativ mit der Aufgabengenauigkeit korrelieren, und effektiv die aleatorischen und epistemischen Bestandteile berechnet.
English
Generative video models demonstrate impressive text-to-video capabilities, spurring widespread adoption in many real-world applications. However, like large language models (LLMs), video generation models tend to hallucinate, producing plausible videos even when they are factually wrong. Although uncertainty quantification (UQ) of LLMs has been extensively studied in prior work, no UQ method for video models exists, raising critical safety concerns. To our knowledge, this paper represents the first work towards quantifying the uncertainty of video models. We present a framework for uncertainty quantification of generative video models, consisting of: (i) a metric for evaluating the calibration of video models based on robust rank correlation estimation with no stringent modeling assumptions; (ii) a black-box UQ method for video models (termed S-QUBED), which leverages latent modeling to rigorously decompose predictive uncertainty into its aleatoric and epistemic components; and (iii) a UQ dataset to facilitate benchmarking calibration in video models. By conditioning the generation task in the latent space, we disentangle uncertainty arising due to vague task specifications from that arising from lack of knowledge. Through extensive experiments on benchmark video datasets, we demonstrate that S-QUBED computes calibrated total uncertainty estimates that are negatively correlated with the task accuracy and effectively computes the aleatoric and epistemic constituents.
PDF22October 6, 2025