Невозможные видео
Impossible Videos
March 18, 2025
Авторы: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI
Аннотация
Синтетические видео в настоящее время широко используются для восполнения недостатка данных и увеличения разнообразия реальных видеозаписей. Современные синтетические наборы данных в основном воспроизводят реальные сценарии, оставляя неисследованными невозможные, контрфактуальные и антиреалистичные концепции видео. Данная работа ставит перед собой две цели: 1) Способны ли современные модели генерации видео эффективно следовать запросам для создания невозможного видеоконтента? 2) Достаточно ли развиты современные модели понимания видео для анализа невозможных видеозаписей? Для этого мы представляем IPV-Bench — новый эталонный набор, предназначенный для оценки и стимулирования прогресса в области понимания и генерации видео. IPV-Bench основан на всеобъемлющей таксономии, охватывающей 4 области и 14 категорий. Он включает разнообразные сцены, нарушающие физические, биологические, географические или социальные законы. На основе этой таксономии создан набор запросов для оценки моделей генерации видео, проверяющий их способность следовать запросам и проявлять креативность. Кроме того, подготовлен видеобенчмарк для оценки Video-LLM на способность понимать невозможные видео, что особенно требует рассуждений о временной динамике и знаниях о мире. Комплексные оценки выявляют ограничения и дают инсайты для будущих направлений развития видеомоделей, прокладывая путь для моделей следующего поколения.
English
Synthetic videos nowadays is widely used to complement data scarcity and
diversity of real-world videos. Current synthetic datasets primarily replicate
real-world scenarios, leaving impossible, counterfactual and anti-reality video
concepts underexplored. This work aims to answer two questions: 1) Can today's
video generation models effectively follow prompts to create impossible video
content? 2) Are today's video understanding models good enough for
understanding impossible videos? To this end, we introduce IPV-Bench, a novel
benchmark designed to evaluate and foster progress in video understanding and
generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing
4 domains, 14 categories. It features diverse scenes that defy physical,
biological, geographical, or social laws. Based on the taxonomy, a prompt suite
is constructed to evaluate video generation models, challenging their prompt
following and creativity capabilities. In addition, a video benchmark is
curated to assess Video-LLMs on their ability of understanding impossible
videos, which particularly requires reasoning on temporal dynamics and world
knowledge. Comprehensive evaluations reveal limitations and insights for future
directions of video models, paving the way for next-generation video models.Summary
AI-Generated Summary