Modelos Mundiais que Sabem Quando Não Sabem: Geração de Vídeo Controlável com Incerteza Calibrada

Resumo

Os recentes avanços em modelos generativos de vídeo levaram a avanços significativos na síntese de vídeo de alta fidelidade, especificamente na geração de vídeo controlável, onde o vídeo gerado é condicionado por entradas de texto e ação, por exemplo, na edição de vídeo guiada por instruções e na modelagem de mundos em robótica. Apesar dessas capacidades excepcionais, os modelos de vídeo controláveis frequentemente apresentam alucinações – gerando quadros de vídeo futuros que estão desalinhados com a realidade física – o que levanta sérias preocupações em muitas tarefas, como avaliação e planejamento de políticas robóticas. No entanto, os modelos de vídeo state-of-the-art carecem da capacidade de avaliar e expressar sua confiança, dificultando a mitigação de alucinações. Para enfrentar rigorosamente este desafio, propomos o C3, um método de quantificação de incerteza (UQ) para treinar modelos de vídeo controláveis calibrados em escala contínua para estimativa de confiança densa ao nível de sub-regiões, localizando precisamente a incerteza em cada quadro de vídeo gerado. O nosso método UQ introduz três inovações centrais para capacitar os modelos de vídeo a estimarem sua própria incerteza. Primeiro, o nosso método desenvolve uma estrutura nova que treina modelos de vídeo para correção e calibração via regras de pontuação estritamente próprias. Segundo, estimamos a incerteza do modelo de vídeo no espaço latente, evitando a instabilidade de treinamento e os custos proibitivos associados a abordagens no espaço de pixels. Terceiro, mapeamos a incerteza densa do espaço latente para uma incerteza interpretável ao nível de pixel no espaço RGB para visualização intuitiva, fornecendo mapas de calor de incerteza de alta resolução que identificam regiões não confiáveis. Através de extensivos experimentos em conjuntos de dados de aprendizagem robótica em larga escala (Bridge e DROID) e avaliações no mundo real, demonstramos que o nosso método não só fornece estimativas de incerteza calibradas dentro da distribuição de treinamento, mas também permite uma deteção eficaz de dados fora da distribuição.

English

Recent advances in generative video models have led to significant breakthroughs in high-fidelity video synthesis, specifically in controllable video generation where the generated video is conditioned on text and action inputs, e.g., in instruction-guided video editing and world modeling in robotics. Despite these exceptional capabilities, controllable video models often hallucinate - generating future video frames that are misaligned with physical reality - which raises serious concerns in many tasks such as robot policy evaluation and planning. However, state-of-the-art video models lack the ability to assess and express their confidence, impeding hallucination mitigation. To rigorously address this challenge, we propose C3, an uncertainty quantification (UQ) method for training continuous-scale calibrated controllable video models for dense confidence estimation at the subpatch level, precisely localizing the uncertainty in each generated video frame. Our UQ method introduces three core innovations to empower video models to estimate their uncertainty. First, our method develops a novel framework that trains video models for correctness and calibration via strictly proper scoring rules. Second, we estimate the video model's uncertainty in latent space, avoiding training instability and prohibitive training costs associated with pixel-space approaches. Third, we map the dense latent-space uncertainty to interpretable pixel-level uncertainty in the RGB space for intuitive visualization, providing high-resolution uncertainty heatmaps that identify untrustworthy regions. Through extensive experiments on large-scale robot learning datasets (Bridge and DROID) and real-world evaluations, we demonstrate that our method not only provides calibrated uncertainty estimates within the training distribution, but also enables effective out-of-distribution detection.

Modelos Mundiais que Sabem Quando Não Sabem: Geração de Vídeo Controlável com Incerteza Calibrada

World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty

Resumo

Support