Модели мира, которые знают, когда они не знают: Управляемое видеогенерация с калиброванной неопределенностью
World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty
December 5, 2025
Авторы: Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar
cs.AI
Аннотация
Последние достижения в области генеративных видео-моделей привели к значительным прорывам в синтезе видео высокой точности, в частности, в управляемой генерации видео, где создаваемое видео обусловлено текстовыми и действиями, например, в редактировании видео по инструкциям и моделировании мира в робототехнике. Несмотря на эти исключительные возможности, управляемые видео-модели часто подвержены галлюцинациям — генерации будущих кадров, которые не соответствуют физической реальности, — что вызывает серьезную озабоченность при выполнении многих задач, таких как оценка политик роботов и планирование. Однако современные видео-модели не способны оценивать и выражать свою уверенность, что препятствует устранению галлюцинаций. Для строгого решения этой проблемы мы предлагаем C3 — метод количественной оценки неопределенности (UQ) для обучения управляемых видео-моделей с непрерывной калибровкой для плотной оценки достоверности на уровне субпатчей, точно локализуя неопределенность в каждом сгенерированном кадре. Наш метод UQ включает три ключевых нововведения, позволяющих видео-моделям оценивать свою неопределенность. Во-первых, наш метод разрабатывает новую структуру, которая обучает видео-модели на корректность и калибровку с помощью строго правильных scoring rules. Во-вторых, мы оцениваем неопределенность видео-модели в латентном пространстве, избегая нестабильности обучения и запретительно высоких затрат на обучение, связанных с подходами в пиксельном пространстве. В-третьих, мы проецируем плотную неопределенность из латентного пространства в интерпретируемую неопределенность на уровне пикселей в RGB-пространстве для интуитивной визуализации, предоставляя тепловые карты неопределенности высокого разрешения, которые идентифицируют ненадежные области. В ходе обширных экспериментов на крупных наборах данных по обучению роботов (Bridge и DROID) и реальных оценок мы демонстрируем, что наш метод не только обеспечивает калиброванные оценки неопределенности в пределах обучающего распределения, но и позволяет эффективно обнаруживать выбросы.
English
Recent advances in generative video models have led to significant breakthroughs in high-fidelity video synthesis, specifically in controllable video generation where the generated video is conditioned on text and action inputs, e.g., in instruction-guided video editing and world modeling in robotics. Despite these exceptional capabilities, controllable video models often hallucinate - generating future video frames that are misaligned with physical reality - which raises serious concerns in many tasks such as robot policy evaluation and planning. However, state-of-the-art video models lack the ability to assess and express their confidence, impeding hallucination mitigation. To rigorously address this challenge, we propose C3, an uncertainty quantification (UQ) method for training continuous-scale calibrated controllable video models for dense confidence estimation at the subpatch level, precisely localizing the uncertainty in each generated video frame. Our UQ method introduces three core innovations to empower video models to estimate their uncertainty. First, our method develops a novel framework that trains video models for correctness and calibration via strictly proper scoring rules. Second, we estimate the video model's uncertainty in latent space, avoiding training instability and prohibitive training costs associated with pixel-space approaches. Third, we map the dense latent-space uncertainty to interpretable pixel-level uncertainty in the RGB space for intuitive visualization, providing high-resolution uncertainty heatmaps that identify untrustworthy regions. Through extensive experiments on large-scale robot learning datasets (Bridge and DROID) and real-world evaluations, we demonstrate that our method not only provides calibrated uncertainty estimates within the training distribution, but also enables effective out-of-distribution detection.