ChatPaper.aiChatPaper

Насколько уверены модели для работы с видео? Наделение видео-моделей способностью выражать свою неопределенность

How Confident are Video Models? Empowering Video Models to Express their Uncertainty

October 2, 2025
Авторы: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
cs.AI

Аннотация

Генеративные модели видео демонстрируют впечатляющие возможности преобразования текста в видео, что способствует их широкому внедрению во многих реальных приложениях. Однако, как и крупные языковые модели (LLM), модели генерации видео склонны к "галлюцинациям", создавая правдоподобные видео даже в случаях, когда они фактически ошибочны. Хотя количественная оценка неопределенности (UQ) для LLM была подробно изучена в предыдущих работах, для видео моделей такие методы отсутствуют, что вызывает серьезные опасения в плане безопасности. Насколько нам известно, данная работа является первой попыткой количественной оценки неопределенности для видео моделей. Мы представляем фреймворк для оценки неопределенности генеративных видео моделей, который включает: (i) метрику для оценки калибровки видео моделей, основанную на надежной оценке ранговой корреляции без строгих предположений о моделировании; (ii) метод UQ для видео моделей (названный S-QUBED), который использует латентное моделирование для строгого разделения прогностической неопределенности на алеаторную и эпистемическую составляющие; и (iii) набор данных UQ для облегчения тестирования калибровки видео моделей. Условив задачу генерации в латентном пространстве, мы разделяем неопределенность, возникающую из-за нечетких спецификаций задачи, и неопределенность, вызванную недостатком знаний. В ходе обширных экспериментов на эталонных наборах видео данных мы демонстрируем, что S-QUBED вычисляет калиброванные оценки общей неопределенности, которые отрицательно коррелируют с точностью выполнения задачи, и эффективно вычисляет алеаторные и эпистемические составляющие.
English
Generative video models demonstrate impressive text-to-video capabilities, spurring widespread adoption in many real-world applications. However, like large language models (LLMs), video generation models tend to hallucinate, producing plausible videos even when they are factually wrong. Although uncertainty quantification (UQ) of LLMs has been extensively studied in prior work, no UQ method for video models exists, raising critical safety concerns. To our knowledge, this paper represents the first work towards quantifying the uncertainty of video models. We present a framework for uncertainty quantification of generative video models, consisting of: (i) a metric for evaluating the calibration of video models based on robust rank correlation estimation with no stringent modeling assumptions; (ii) a black-box UQ method for video models (termed S-QUBED), which leverages latent modeling to rigorously decompose predictive uncertainty into its aleatoric and epistemic components; and (iii) a UQ dataset to facilitate benchmarking calibration in video models. By conditioning the generation task in the latent space, we disentangle uncertainty arising due to vague task specifications from that arising from lack of knowledge. Through extensive experiments on benchmark video datasets, we demonstrate that S-QUBED computes calibrated total uncertainty estimates that are negatively correlated with the task accuracy and effectively computes the aleatoric and epistemic constituents.
PDF22October 6, 2025