ビデオモデルはどの程度確信を持っているのか?ビデオモデルに不確実性を表現する力を与える
How Confident are Video Models? Empowering Video Models to Express their Uncertainty
October 2, 2025
著者: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
cs.AI
要旨
生成動画モデルは、テキストから動画への変換能力において印象的な性能を示し、多くの実世界アプリケーションで広く採用されています。しかし、大規模言語モデル(LLM)と同様に、動画生成モデルも幻覚を起こす傾向があり、事実とは異なる内容であってももっともらしい動画を生成してしまいます。LLMの不確実性定量化(UQ)についてはこれまでに多くの研究が行われてきましたが、動画モデル向けのUQ手法は存在せず、重大な安全性の懸念が生じています。私たちの知る限り、本論文は動画モデルの不確実性を定量化する最初の試みです。本論文では、生成動画モデルの不確実性定量化のためのフレームワークを提案します。このフレームワークは以下の要素で構成されています:(i)厳密なモデル仮定を必要としないロバストな順位相関推定に基づく、動画モデルのキャリブレーションを評価するための指標、(ii)潜在モデリングを活用して予測不確実性をアレータ的不確実性とエピステミック不確実性に厳密に分解する、動画モデル向けのブラックボックスUQ手法(S-QUBEDと命名)、(iii)動画モデルのキャリブレーションをベンチマークするためのUQデータセット。生成タスクを潜在空間で条件付けることで、曖昧なタスク仕様に起因する不確実性と、知識不足に起因する不確実性を分離します。ベンチマーク動画データセットを用いた広範な実験を通じて、S-QUBEDがタスク精度と負の相関を持つキャリブレーションされた総合的不確実性推定値を計算し、アレータ的およびエピステミックな構成要素を効果的に計算することを実証します。
English
Generative video models demonstrate impressive text-to-video capabilities,
spurring widespread adoption in many real-world applications. However, like
large language models (LLMs), video generation models tend to hallucinate,
producing plausible videos even when they are factually wrong. Although
uncertainty quantification (UQ) of LLMs has been extensively studied in prior
work, no UQ method for video models exists, raising critical safety concerns.
To our knowledge, this paper represents the first work towards quantifying the
uncertainty of video models. We present a framework for uncertainty
quantification of generative video models, consisting of: (i) a metric for
evaluating the calibration of video models based on robust rank correlation
estimation with no stringent modeling assumptions; (ii) a black-box UQ method
for video models (termed S-QUBED), which leverages latent modeling to
rigorously decompose predictive uncertainty into its aleatoric and epistemic
components; and (iii) a UQ dataset to facilitate benchmarking calibration in
video models. By conditioning the generation task in the latent space, we
disentangle uncertainty arising due to vague task specifications from that
arising from lack of knowledge. Through extensive experiments on benchmark
video datasets, we demonstrate that S-QUBED computes calibrated total
uncertainty estimates that are negatively correlated with the task accuracy and
effectively computes the aleatoric and epistemic constituents.