知らないことを知っている世界モデル:較正された不確実性による制御可能な動画生成
World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty
December 5, 2025
著者: Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar
cs.AI
要旨
近年の生成的ビデオモデルの進歩は、高精細なビデオ合成、特にテキストや動作入力に条件付けられた制御可能なビデオ生成(例:指示に基づくビデオ編集やロボット工学における世界モデリング)において画期的な成果をもたらしている。しかし、こうした優れた能力にもかかわらず、制御可能なビデオモデルはしばしば幻覚(ハルシネーション)を発生させる。つまり、物理的現実と整合性のない未来のビデオフレームを生成するのであり、ロボットの政策評価や計画など多くのタスクにおいて深刻な懸念を引き起こしている。さらに、最先端のビデオモデルは自身の信頼度を評価し表明する能力を欠いており、幻覚の軽減を妨げている。この課題に厳密に取り組むため、我々はC3を提案する。これは、サブパッチレベルでの高密度な信頼度推定のために、連続尺度で較正された制御可能なビデオモデルを訓練する不確実性定量化(UQ)手法であり、生成された各ビデオフレーム内の不確実性を精密に位置特定する。我々のUQ手法は、ビデオモデルが自身の不確実性を推定できるようにするための3つの核心的革新を導入する。第一に、厳密に適切な評価規則を通じて、正確性と較正のためにビデオモデルを訓練する新規フレームワークを開発する。第二に、ビデオモデルの不確実性を潜在空間で推定し、画素空間アプローチに伴う訓練の不安定性と膨大な訓練コストを回避する。第三に、高密度の潜在空間不確実性を、直感的な可視化のためのRGB空間における解釈可能な画素レベル不確実性にマッピングし、信頼できない領域を特定する高解像度の不確実性ヒートマップを提供する。大規模なロボット学習データセット(BridgeおよびDROID)を用いた広範な実験と実世界評価を通じて、我々の手法が訓練分布内で較正された不確実性推定を提供するだけでなく、効果的な分布外検出を可能にすることを実証する。
English
Recent advances in generative video models have led to significant breakthroughs in high-fidelity video synthesis, specifically in controllable video generation where the generated video is conditioned on text and action inputs, e.g., in instruction-guided video editing and world modeling in robotics. Despite these exceptional capabilities, controllable video models often hallucinate - generating future video frames that are misaligned with physical reality - which raises serious concerns in many tasks such as robot policy evaluation and planning. However, state-of-the-art video models lack the ability to assess and express their confidence, impeding hallucination mitigation. To rigorously address this challenge, we propose C3, an uncertainty quantification (UQ) method for training continuous-scale calibrated controllable video models for dense confidence estimation at the subpatch level, precisely localizing the uncertainty in each generated video frame. Our UQ method introduces three core innovations to empower video models to estimate their uncertainty. First, our method develops a novel framework that trains video models for correctness and calibration via strictly proper scoring rules. Second, we estimate the video model's uncertainty in latent space, avoiding training instability and prohibitive training costs associated with pixel-space approaches. Third, we map the dense latent-space uncertainty to interpretable pixel-level uncertainty in the RGB space for intuitive visualization, providing high-resolution uncertainty heatmaps that identify untrustworthy regions. Through extensive experiments on large-scale robot learning datasets (Bridge and DROID) and real-world evaluations, we demonstrate that our method not only provides calibrated uncertainty estimates within the training distribution, but also enables effective out-of-distribution detection.