불확실성이 보정된 제어 가능한 비디오 생성: 알지 못함을 아는 세계 모델
World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty
December 5, 2025
저자: Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar
cs.AI
초록
최근 생성형 비디오 모델의 발전으로 고품질 비디오 합성, 특히 텍스트 및 동작 입력을 조건으로 하는 제어 가능 비디오 생성(예: 지시어 기반 비디오 편집 및 로봇 공학의 세계 모델링) 분야에서 중대한 돌파구가 이루어졌습니다. 이러한 뛰어난 능력에도 불구하고, 제어 가능 비디오 모델은 종종 환각(hallucination)을 일으키며, 이는 물리적 현실과 일치하지 않는 미래 비디오 프레임을 생성하여 로봇 정책 평가 및 계획과 같은 많은 작업에서 심각한 문제를 제기합니다. 그러나 최첨단 비디오 모델은 자신의 신뢰도를 평가하고 표현하는 능력이 부족해 환각 완화를 저해합니다. 이 문제를 체계적으로 해결하기 위해 우리는 서브패치 수준에서 조밀한 신뢰도 추정을 위한 연속 스케일 보정 제어 가능 비디오 모델을 훈련하는 불확실성 정량화(C3) 방법을 제안하며, 생성된 각 비디오 프레임의 불확실성을 정확하게 지역화합니다. 우리의 UQ 방법은 비디오 모델이 자신의 불확실성을 추정할 수 있도록 세 가지 핵심 혁신을 도입합니다. 첫째, 우리 방법은 엄격하게 적절한 채점 규칙을 통해 정확성과 보정을 위한 비디오 모델 훈련 프레임워크를 개발합니다. 둘째, 픽셀 공간 접근법과 관련된 훈련 불안정성과 과도한 훈련 비용을 피하며 잠재 공간에서 비디오 모델의 불확실성을 추정합니다. 셋째, 직관적인 시각화를 위해 조밀한 잠재 공간 불확실도를 해석 가능한 픽셀 수준의 RGB 공간 불확실도로 매핑하여 신뢰할 수 없는 영역을 식별하는 고해상도 불확실도 히트맵을 제공합니다. 대규모 로봇 학습 데이터셋(Bridge 및 DROID)에 대한 광범위한 실험과 실제 평가를 통해 우리 방법이 훈련 분포 내에서 보정된 불확실도 추정치를 제공할 뿐만 아니라 효과적인 분포 외 탐지를 가능하게 함을 입증합니다.
English
Recent advances in generative video models have led to significant breakthroughs in high-fidelity video synthesis, specifically in controllable video generation where the generated video is conditioned on text and action inputs, e.g., in instruction-guided video editing and world modeling in robotics. Despite these exceptional capabilities, controllable video models often hallucinate - generating future video frames that are misaligned with physical reality - which raises serious concerns in many tasks such as robot policy evaluation and planning. However, state-of-the-art video models lack the ability to assess and express their confidence, impeding hallucination mitigation. To rigorously address this challenge, we propose C3, an uncertainty quantification (UQ) method for training continuous-scale calibrated controllable video models for dense confidence estimation at the subpatch level, precisely localizing the uncertainty in each generated video frame. Our UQ method introduces three core innovations to empower video models to estimate their uncertainty. First, our method develops a novel framework that trains video models for correctness and calibration via strictly proper scoring rules. Second, we estimate the video model's uncertainty in latent space, avoiding training instability and prohibitive training costs associated with pixel-space approaches. Third, we map the dense latent-space uncertainty to interpretable pixel-level uncertainty in the RGB space for intuitive visualization, providing high-resolution uncertainty heatmaps that identify untrustworthy regions. Through extensive experiments on large-scale robot learning datasets (Bridge and DROID) and real-world evaluations, we demonstrate that our method not only provides calibrated uncertainty estimates within the training distribution, but also enables effective out-of-distribution detection.