ChatPaper.aiChatPaper

Wereldmodellen Die Weten Wanneer Ze Het Niet Weten: Beheerbare Videogeneratie met Gekalibreerde Onzekerheid

World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty

December 5, 2025
Auteurs: Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar
cs.AI

Samenvatting

Recente vooruitgang in generatieve videomodellen heeft geleid tot significante doorbraken in hoogfideliteit videosynthese, met name op het gebied van controleerbare videogeneratie waarbij de gegenereerde video wordt gestuurd door tekst- en actie-inputs, bijvoorbeeld bij instructiegestuurd videobewerken en wereldmodellering in de robotica. Ondanks deze uitzonderlijke capaciteiten vertonen controleerbare videomodellen vaak hallucinaties – ze genereren toekomstige videoframes die niet overeenkomen met de fysieke realiteit – wat ernstige zorgen opwerpt bij veel taken, zoals de evaluatie en planning van robotbeleid. State-of-the-art videomodellen beschikken echter niet over het vermogen om hun eigen betrouwbaarheid in te schatten en uit te drukken, wat het beperken van hallucinaties belemmert. Om deze uitdaging rigoureus aan te pakken, stellen wij C3 voor, een onzekerheidskwantificeringsmethode (UQ) voor het trainen van controleerbare videomodellen met continue schaalcalibratie voor dichte betrouwbaarheidsschatting op subpatch-niveau, waardoor de onzekerheid in elk gegenereerd videoframe precies gelokaliseerd wordt. Onze UQ-methode introduceert drie kerninnovaties om videomodellen in staat te stellen hun onzekerheid in te schatten. Ten eerste ontwikkelt onze methode een raamwerk dat videomodellen traint voor correctheid en calibratie via strikt eigenschappelijke scorefuncties. Ten tweede schatten we de onzekerheid van het videomodel in de latente ruimte in, waardoor traininstabiliteit en excessieve trainkosten geassocieerd met pixelruimtebenaderingen worden vermeden. Ten derde vertalen we de dichte onzekerheid in de latente ruimte naar interpreteerbare onzekerheid op pixelniveau in de RGB-ruimte voor intuïtieve visualisatie, wat hoogresolutie onzekerheidsheatmaps oplevert die onbetrouwbare regio's identificeren. Door middel van uitgebreide experimenten op grootschalige robotleerdatasets (Bridge en DROID) en evaluaties in de echte wereld tonen we aan dat onze methode niet alleen gecalibreerde onzekerheidsschattingen biedt binnen de trainingsverdeling, maar ook effectieve detectie van out-of-distribution gegevens mogelijk maakt.
English
Recent advances in generative video models have led to significant breakthroughs in high-fidelity video synthesis, specifically in controllable video generation where the generated video is conditioned on text and action inputs, e.g., in instruction-guided video editing and world modeling in robotics. Despite these exceptional capabilities, controllable video models often hallucinate - generating future video frames that are misaligned with physical reality - which raises serious concerns in many tasks such as robot policy evaluation and planning. However, state-of-the-art video models lack the ability to assess and express their confidence, impeding hallucination mitigation. To rigorously address this challenge, we propose C3, an uncertainty quantification (UQ) method for training continuous-scale calibrated controllable video models for dense confidence estimation at the subpatch level, precisely localizing the uncertainty in each generated video frame. Our UQ method introduces three core innovations to empower video models to estimate their uncertainty. First, our method develops a novel framework that trains video models for correctness and calibration via strictly proper scoring rules. Second, we estimate the video model's uncertainty in latent space, avoiding training instability and prohibitive training costs associated with pixel-space approaches. Third, we map the dense latent-space uncertainty to interpretable pixel-level uncertainty in the RGB space for intuitive visualization, providing high-resolution uncertainty heatmaps that identify untrustworthy regions. Through extensive experiments on large-scale robot learning datasets (Bridge and DROID) and real-world evaluations, we demonstrate that our method not only provides calibrated uncertainty estimates within the training distribution, but also enables effective out-of-distribution detection.
PDF92December 9, 2025