ChatPaper.aiChatPaper

À quel point les modèles vidéo sont-ils confiants ? Donner aux modèles vidéo la capacité d'exprimer leur incertitude

How Confident are Video Models? Empowering Video Models to Express their Uncertainty

October 2, 2025
papers.authors: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
cs.AI

papers.abstract

Les modèles génératifs vidéo démontrent des capacités impressionnantes de conversion de texte en vidéo, stimulant une adoption généralisée dans de nombreuses applications réelles. Cependant, tout comme les grands modèles de langage (LLMs), les modèles de génération vidéo ont tendance à halluciner, produisant des vidéos plausibles même lorsqu'elles sont factuellement incorrectes. Bien que la quantification de l'incertitude (UQ) des LLMs ait été largement étudiée dans des travaux antérieurs, aucune méthode UQ pour les modèles vidéo n'existe, soulevant des préoccupations critiques en matière de sécurité. À notre connaissance, cet article représente le premier travail visant à quantifier l'incertitude des modèles vidéo. Nous présentons un cadre pour la quantification de l'incertitude des modèles génératifs vidéo, comprenant : (i) une métrique pour évaluer la calibration des modèles vidéo basée sur l'estimation robuste de la corrélation de rang sans hypothèses de modélisation strictes ; (ii) une méthode UQ en boîte noire pour les modèles vidéo (appelée S-QUBED), qui exploite la modélisation latente pour décomposer rigoureusement l'incertitude prédictive en ses composantes aléatoires et épistémiques ; et (iii) un ensemble de données UQ pour faciliter l'évaluation de la calibration des modèles vidéo. En conditionnant la tâche de génération dans l'espace latent, nous dissocions l'incertitude résultant de spécifications de tâches vagues de celle résultant d'un manque de connaissances. Grâce à des expériences approfondies sur des ensembles de données vidéo de référence, nous démontrons que S-QUBED calcule des estimations d'incertitude totale calibrées qui sont négativement corrélées avec la précision de la tâche et décompose efficacement les constituants aléatoires et épistémiques.
English
Generative video models demonstrate impressive text-to-video capabilities, spurring widespread adoption in many real-world applications. However, like large language models (LLMs), video generation models tend to hallucinate, producing plausible videos even when they are factually wrong. Although uncertainty quantification (UQ) of LLMs has been extensively studied in prior work, no UQ method for video models exists, raising critical safety concerns. To our knowledge, this paper represents the first work towards quantifying the uncertainty of video models. We present a framework for uncertainty quantification of generative video models, consisting of: (i) a metric for evaluating the calibration of video models based on robust rank correlation estimation with no stringent modeling assumptions; (ii) a black-box UQ method for video models (termed S-QUBED), which leverages latent modeling to rigorously decompose predictive uncertainty into its aleatoric and epistemic components; and (iii) a UQ dataset to facilitate benchmarking calibration in video models. By conditioning the generation task in the latent space, we disentangle uncertainty arising due to vague task specifications from that arising from lack of knowledge. Through extensive experiments on benchmark video datasets, we demonstrate that S-QUBED computes calibrated total uncertainty estimates that are negatively correlated with the task accuracy and effectively computes the aleatoric and epistemic constituents.
PDF22October 6, 2025