Modèles mondiaux qui savent quand ils ne savent pas : Génération vidéo contrôlable avec incertitude calibrée
World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty
December 5, 2025
papers.authors: Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar
cs.AI
papers.abstract
Les récentes avancées des modèles génératifs vidéo ont conduit à des percées significatives dans la synthèse vidéo haute fidélité, notamment dans la génération vidéo contrôlable où la vidéo générée est conditionnée par des entrées textuelles et d'action, par exemple dans l'édition vidéo guidée par instructions et la modélisation du monde en robotique. Malgré ces capacités exceptionnelles, les modèles vidéo contrôlables produisent souvent des hallucinations – générant des images vidéo futures non alignées avec la réalité physique – ce qui soulève de sérieuses préoccupations dans de nombreuses tâches telles que l'évaluation et la planification de politiques robotiques. Cependant, les modèles vidéo de pointe manquent de la capacité à évaluer et exprimer leur confiance, entravant l'atténuation des hallucinations. Pour relever rigoureusement ce défi, nous proposons C3, une méthode de quantification d'incertitude (UQ) pour entraîner des modèles vidéo contrôlables à échelle continue et calibrés pour une estimation de confiance dense au niveau des sous-patches, localisant précisément l'incertitude dans chaque image vidéo générée. Notre méthode UQ introduit trois innovations fondamentales pour permettre aux modèles vidéo d'estimer leur incertitude. Premièrement, notre méthode développe un cadre novateur qui entraîne les modèles vidéo pour la justesse et l'étalonnage via des règles de score strictement propres. Deuxièmement, nous estimons l'incertitude du modèle vidéo dans l'espace latent, évitant l'instabilité de l'entraînement et les coûts d'entraînement prohibitifs associés aux approches dans l'espace pixel. Troisièmement, nous projetons l'incertitude dense de l'espace latent vers une incertitude interprétable au niveau pixel dans l'espace RVB pour une visualisation intuitive, fournissant des cartes thermiques d'incertitude haute résolution qui identifient les régions non fiables. Grâce à des expériences approfondies sur des ensembles de données d'apprentissage robotique à grande échelle (Bridge et DROID) et à des évaluations en conditions réelles, nous démontrons que notre méthode fournit non seulement des estimations d'incertitude calibrées dans la distribution d'entraînement, mais permet également une détection efficace hors distribution.
English
Recent advances in generative video models have led to significant breakthroughs in high-fidelity video synthesis, specifically in controllable video generation where the generated video is conditioned on text and action inputs, e.g., in instruction-guided video editing and world modeling in robotics. Despite these exceptional capabilities, controllable video models often hallucinate - generating future video frames that are misaligned with physical reality - which raises serious concerns in many tasks such as robot policy evaluation and planning. However, state-of-the-art video models lack the ability to assess and express their confidence, impeding hallucination mitigation. To rigorously address this challenge, we propose C3, an uncertainty quantification (UQ) method for training continuous-scale calibrated controllable video models for dense confidence estimation at the subpatch level, precisely localizing the uncertainty in each generated video frame. Our UQ method introduces three core innovations to empower video models to estimate their uncertainty. First, our method develops a novel framework that trains video models for correctness and calibration via strictly proper scoring rules. Second, we estimate the video model's uncertainty in latent space, avoiding training instability and prohibitive training costs associated with pixel-space approaches. Third, we map the dense latent-space uncertainty to interpretable pixel-level uncertainty in the RGB space for intuitive visualization, providing high-resolution uncertainty heatmaps that identify untrustworthy regions. Through extensive experiments on large-scale robot learning datasets (Bridge and DROID) and real-world evaluations, we demonstrate that our method not only provides calibrated uncertainty estimates within the training distribution, but also enables effective out-of-distribution detection.