Hoe zeker zijn videomodellen? Videomodellen in staat stellen om hun onzekerheid uit te drukken

Samenvatting

Generatieve videomodellen tonen indrukwekkende tekst-naar-video-mogelijkheden, wat leidt tot een brede adoptie in veel real-world toepassingen. Echter, net als grote taalmmodellen (LLM's), hebben videogeneratiemodellen de neiging om te hallucineren, waarbij ze geloofwaardige video's produceren, zelfs als deze feitelijk onjuist zijn. Hoewel onzekerheidskwantificering (UQ) van LLM's uitgebreid is bestudeerd in eerder werk, bestaat er geen UQ-methode voor videomodellen, wat kritieke veiligheidsproblemen oproept. Voor zover wij weten, vertegenwoordigt dit artikel het eerste werk naar het kwantificeren van de onzekerheid van videomodellen. Wij presenteren een raamwerk voor onzekerheidskwantificering van generatieve videomodellen, bestaande uit: (i) een metriek voor het evalueren van de calibratie van videomodellen gebaseerd op robuuste rangcorrelatieschatting zonder strikte modelaannames; (ii) een black-box UQ-methode voor videomodellen (genaamd S-QUBED), die latent modelleren benut om voorspellende onzekerheid rigoureus te ontbinden in zijn aleatorische en epistemische componenten; en (iii) een UQ-dataset om het benchmarken van calibratie in videomodellen te vergemakkelijken. Door de generatietaak te conditioneren in de latente ruimte, ontwarren we onzekerheid die voortkomt uit vage taakspecificaties van onzekerheid die voortkomt uit een gebrek aan kennis. Door uitgebreide experimenten op benchmark-videodatasets tonen we aan dat S-QUBED gekalibreerde totale onzekerheidsschattingen berekent die negatief gecorreleerd zijn met de taaknauwkeurigheid en effectief de aleatorische en epistemische componenten berekent.

English

Generative video models demonstrate impressive text-to-video capabilities, spurring widespread adoption in many real-world applications. However, like large language models (LLMs), video generation models tend to hallucinate, producing plausible videos even when they are factually wrong. Although uncertainty quantification (UQ) of LLMs has been extensively studied in prior work, no UQ method for video models exists, raising critical safety concerns. To our knowledge, this paper represents the first work towards quantifying the uncertainty of video models. We present a framework for uncertainty quantification of generative video models, consisting of: (i) a metric for evaluating the calibration of video models based on robust rank correlation estimation with no stringent modeling assumptions; (ii) a black-box UQ method for video models (termed S-QUBED), which leverages latent modeling to rigorously decompose predictive uncertainty into its aleatoric and epistemic components; and (iii) a UQ dataset to facilitate benchmarking calibration in video models. By conditioning the generation task in the latent space, we disentangle uncertainty arising due to vague task specifications from that arising from lack of knowledge. Through extensive experiments on benchmark video datasets, we demonstrate that S-QUBED computes calibrated total uncertainty estimates that are negatively correlated with the task accuracy and effectively computes the aleatoric and epistemic constituents.

Hoe zeker zijn videomodellen? Videomodellen in staat stellen om hun onzekerheid uit te drukken

How Confident are Video Models? Empowering Video Models to Express their Uncertainty

Samenvatting

Support