Quão Confiantes são os Modelos de Vídeo? Capacitando Modelos de Vídeo a Expressar sua Incerteza
How Confident are Video Models? Empowering Video Models to Express their Uncertainty
October 2, 2025
Autores: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
cs.AI
Resumo
Modelos generativos de vídeo demonstram capacidades impressionantes de conversão de texto em vídeo, impulsionando a adoção generalizada em muitas aplicações do mundo real. No entanto, assim como os grandes modelos de linguagem (LLMs), os modelos de geração de vídeo tendem a alucinar, produzindo vídeos plausíveis mesmo quando estão factualmente incorretos. Embora a quantificação de incerteza (UQ) de LLMs tenha sido extensivamente estudada em trabalhos anteriores, não existe um método de UQ para modelos de vídeo, o que levanta preocupações críticas de segurança. Até onde sabemos, este artigo representa o primeiro trabalho em direção à quantificação da incerteza de modelos de vídeo. Apresentamos um framework para quantificação de incerteza de modelos generativos de vídeo, consistindo em: (i) uma métrica para avaliar a calibração de modelos de vídeo baseada na estimativa robusta de correlação de postos sem suposições de modelagem rigorosas; (ii) um método de UQ de caixa preta para modelos de vídeo (denominado S-QUBED), que aproveita a modelagem latente para decompor rigorosamente a incerteza preditiva em seus componentes aleatória e epistêmica; e (iii) um conjunto de dados de UQ para facilitar o benchmarking da calibração em modelos de vídeo. Ao condicionar a tarefa de geração no espaço latente, separamos a incerteza decorrente de especificações vagas da tarefa daquela decorrente da falta de conhecimento. Por meio de extensos experimentos em conjuntos de dados de vídeo de referência, demonstramos que o S-QUBED calcula estimativas de incerteza total calibradas que estão negativamente correlacionadas com a precisão da tarefa e efetivamente calcula os componentes aleatório e epistêmico.
English
Generative video models demonstrate impressive text-to-video capabilities,
spurring widespread adoption in many real-world applications. However, like
large language models (LLMs), video generation models tend to hallucinate,
producing plausible videos even when they are factually wrong. Although
uncertainty quantification (UQ) of LLMs has been extensively studied in prior
work, no UQ method for video models exists, raising critical safety concerns.
To our knowledge, this paper represents the first work towards quantifying the
uncertainty of video models. We present a framework for uncertainty
quantification of generative video models, consisting of: (i) a metric for
evaluating the calibration of video models based on robust rank correlation
estimation with no stringent modeling assumptions; (ii) a black-box UQ method
for video models (termed S-QUBED), which leverages latent modeling to
rigorously decompose predictive uncertainty into its aleatoric and epistemic
components; and (iii) a UQ dataset to facilitate benchmarking calibration in
video models. By conditioning the generation task in the latent space, we
disentangle uncertainty arising due to vague task specifications from that
arising from lack of knowledge. Through extensive experiments on benchmark
video datasets, we demonstrate that S-QUBED computes calibrated total
uncertainty estimates that are negatively correlated with the task accuracy and
effectively computes the aleatoric and epistemic constituents.