¿Qué tan seguros son los modelos de video? Capacitando a los modelos de video para expresar su incertidumbre
How Confident are Video Models? Empowering Video Models to Express their Uncertainty
October 2, 2025
Autores: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
cs.AI
Resumen
Los modelos generativos de video demuestran capacidades impresionantes de conversión de texto a video, impulsando su adopción generalizada en muchas aplicaciones del mundo real. Sin embargo, al igual que los modelos de lenguaje de gran escala (LLMs), los modelos de generación de video tienden a alucinar, produciendo videos plausibles incluso cuando son factualmente incorrectos. Aunque la cuantificación de incertidumbre (UQ) en LLMs ha sido ampliamente estudiada en trabajos previos, no existe ningún método de UQ para modelos de video, lo que plantea preocupaciones críticas de seguridad. Hasta donde sabemos, este artículo representa el primer trabajo hacia la cuantificación de la incertidumbre en modelos de video. Presentamos un marco para la cuantificación de incertidumbre en modelos generativos de video, que consta de: (i) una métrica para evaluar la calibración de modelos de video basada en la estimación robusta de correlación de rangos sin supuestos de modelado estrictos; (ii) un método de UQ de caja negra para modelos de video (denominado S-QUBED), que aprovecha el modelado latente para descomponer rigurosamente la incertidumbre predictiva en sus componentes aleatorios y epistémicos; y (iii) un conjunto de datos de UQ para facilitar la evaluación comparativa de la calibración en modelos de video. Al condicionar la tarea de generación en el espacio latente, separamos la incertidumbre que surge debido a especificaciones de tareas vagas de aquella que surge por falta de conocimiento. A través de extensos experimentos en conjuntos de datos de video de referencia, demostramos que S-QUBED calcula estimaciones calibradas de incertidumbre total que están negativamente correlacionadas con la precisión de la tarea y efectivamente calcula los componentes aleatorios y epistémicos.
English
Generative video models demonstrate impressive text-to-video capabilities,
spurring widespread adoption in many real-world applications. However, like
large language models (LLMs), video generation models tend to hallucinate,
producing plausible videos even when they are factually wrong. Although
uncertainty quantification (UQ) of LLMs has been extensively studied in prior
work, no UQ method for video models exists, raising critical safety concerns.
To our knowledge, this paper represents the first work towards quantifying the
uncertainty of video models. We present a framework for uncertainty
quantification of generative video models, consisting of: (i) a metric for
evaluating the calibration of video models based on robust rank correlation
estimation with no stringent modeling assumptions; (ii) a black-box UQ method
for video models (termed S-QUBED), which leverages latent modeling to
rigorously decompose predictive uncertainty into its aleatoric and epistemic
components; and (iii) a UQ dataset to facilitate benchmarking calibration in
video models. By conditioning the generation task in the latent space, we
disentangle uncertainty arising due to vague task specifications from that
arising from lack of knowledge. Through extensive experiments on benchmark
video datasets, we demonstrate that S-QUBED computes calibrated total
uncertainty estimates that are negatively correlated with the task accuracy and
effectively computes the aleatoric and epistemic constituents.