Quanto sono sicuri i modelli video? Dotare i modelli video della capacità di esprimere la loro incertezza
How Confident are Video Models? Empowering Video Models to Express their Uncertainty
October 2, 2025
Autori: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
cs.AI
Abstract
I modelli generativi di video dimostrano impressionanti capacità di conversione da testo a video, stimolando un'adozione diffusa in molte applicazioni del mondo reale. Tuttavia, come i grandi modelli linguistici (LLM), anche i modelli di generazione video tendono a produrre allucinazioni, generando video plausibili anche quando sono fattualmente errati. Sebbene la quantificazione dell'incertezza (UQ) degli LLM sia stata ampiamente studiata in precedenti lavori, non esiste alcun metodo UQ per i modelli video, sollevando preoccupazioni critiche per la sicurezza. A nostra conoscenza, questo articolo rappresenta il primo lavoro verso la quantificazione dell'incertezza dei modelli video. Presentiamo un framework per la quantificazione dell'incertezza dei modelli generativi di video, composto da: (i) una metrica per valutare la calibrazione dei modelli video basata sulla stima robusta della correlazione di rango senza stringenti assunzioni di modellazione; (ii) un metodo UQ a scatola nera per i modelli video (denominato S-QUBED), che sfrutta la modellazione latente per scomporre rigorosamente l'incertezza predittiva nelle sue componenti aleatorie ed epistemiche; e (iii) un dataset UQ per facilitare il benchmarking della calibrazione nei modelli video. Condizionando il compito di generazione nello spazio latente, separiamo l'incertezza derivante da specifiche di compito vaghe da quella derivante dalla mancanza di conoscenza. Attraverso esperimenti estesi su dataset video di riferimento, dimostriamo che S-QUBED calcola stime calibrate dell'incertezza totale che sono negativamente correlate con l'accuratezza del compito e calcola efficacemente le componenti aleatorie ed epistemiche.
English
Generative video models demonstrate impressive text-to-video capabilities,
spurring widespread adoption in many real-world applications. However, like
large language models (LLMs), video generation models tend to hallucinate,
producing plausible videos even when they are factually wrong. Although
uncertainty quantification (UQ) of LLMs has been extensively studied in prior
work, no UQ method for video models exists, raising critical safety concerns.
To our knowledge, this paper represents the first work towards quantifying the
uncertainty of video models. We present a framework for uncertainty
quantification of generative video models, consisting of: (i) a metric for
evaluating the calibration of video models based on robust rank correlation
estimation with no stringent modeling assumptions; (ii) a black-box UQ method
for video models (termed S-QUBED), which leverages latent modeling to
rigorously decompose predictive uncertainty into its aleatoric and epistemic
components; and (iii) a UQ dataset to facilitate benchmarking calibration in
video models. By conditioning the generation task in the latent space, we
disentangle uncertainty arising due to vague task specifications from that
arising from lack of knowledge. Through extensive experiments on benchmark
video datasets, we demonstrate that S-QUBED computes calibrated total
uncertainty estimates that are negatively correlated with the task accuracy and
effectively computes the aleatoric and epistemic constituents.