Hoe zeker zijn videomodellen? Videomodellen in staat stellen om hun onzekerheid uit te drukken
How Confident are Video Models? Empowering Video Models to Express their Uncertainty
October 2, 2025
Auteurs: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
cs.AI
Samenvatting
Generatieve videomodellen tonen indrukwekkende tekst-naar-video-mogelijkheden, wat leidt tot een brede adoptie in veel real-world toepassingen. Echter, net als grote taalmmodellen (LLM's), hebben videogeneratiemodellen de neiging om te hallucineren, waarbij ze geloofwaardige video's produceren, zelfs als deze feitelijk onjuist zijn. Hoewel onzekerheidskwantificering (UQ) van LLM's uitgebreid is bestudeerd in eerder werk, bestaat er geen UQ-methode voor videomodellen, wat kritieke veiligheidsproblemen oproept. Voor zover wij weten, vertegenwoordigt dit artikel het eerste werk naar het kwantificeren van de onzekerheid van videomodellen. Wij presenteren een raamwerk voor onzekerheidskwantificering van generatieve videomodellen, bestaande uit: (i) een metriek voor het evalueren van de calibratie van videomodellen gebaseerd op robuuste rangcorrelatieschatting zonder strikte modelaannames; (ii) een black-box UQ-methode voor videomodellen (genaamd S-QUBED), die latent modelleren benut om voorspellende onzekerheid rigoureus te ontbinden in zijn aleatorische en epistemische componenten; en (iii) een UQ-dataset om het benchmarken van calibratie in videomodellen te vergemakkelijken. Door de generatietaak te conditioneren in de latente ruimte, ontwarren we onzekerheid die voortkomt uit vage taakspecificaties van onzekerheid die voortkomt uit een gebrek aan kennis. Door uitgebreide experimenten op benchmark-videodatasets tonen we aan dat S-QUBED gekalibreerde totale onzekerheidsschattingen berekent die negatief gecorreleerd zijn met de taaknauwkeurigheid en effectief de aleatorische en epistemische componenten berekent.
English
Generative video models demonstrate impressive text-to-video capabilities,
spurring widespread adoption in many real-world applications. However, like
large language models (LLMs), video generation models tend to hallucinate,
producing plausible videos even when they are factually wrong. Although
uncertainty quantification (UQ) of LLMs has been extensively studied in prior
work, no UQ method for video models exists, raising critical safety concerns.
To our knowledge, this paper represents the first work towards quantifying the
uncertainty of video models. We present a framework for uncertainty
quantification of generative video models, consisting of: (i) a metric for
evaluating the calibration of video models based on robust rank correlation
estimation with no stringent modeling assumptions; (ii) a black-box UQ method
for video models (termed S-QUBED), which leverages latent modeling to
rigorously decompose predictive uncertainty into its aleatoric and epistemic
components; and (iii) a UQ dataset to facilitate benchmarking calibration in
video models. By conditioning the generation task in the latent space, we
disentangle uncertainty arising due to vague task specifications from that
arising from lack of knowledge. Through extensive experiments on benchmark
video datasets, we demonstrate that S-QUBED computes calibrated total
uncertainty estimates that are negatively correlated with the task accuracy and
effectively computes the aleatoric and epistemic constituents.