ChatPaper.aiChatPaper

不可能なビデオ

Impossible Videos

March 18, 2025
著者: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI

要旨

現在、合成動画は実世界の動画データの不足と多様性を補うために広く利用されています。しかし、現在の合成データセットは主に実世界のシナリオを再現するものであり、不可能な、反事実的、および反現実的な動画の概念は十分に探求されていません。本研究は、以下の2つの問いに答えることを目的としています:1)現在の動画生成モデルは、プロンプトに従って不可能な動画コンテンツを効果的に作成できるか?2)現在の動画理解モデルは、不可能な動画を理解するのに十分な性能を持っているか?この目的のために、我々はIPV-Benchという新しいベンチマークを導入します。IPV-Benchは、動画理解と生成の進歩を評価し促進するために設計されています。IPV-Benchは、4つのドメインと14のカテゴリーを含む包括的な分類体系に基づいており、物理的、生物的、地理的、または社会的な法則に反する多様なシーンを特徴としています。この分類体系に基づいて、動画生成モデルのプロンプト追従能力と創造性を評価するためのプロンプトスイートが構築されています。さらに、不可能な動画を理解する能力、特に時間的ダイナミクスと世界知識に基づく推論を必要とする能力を評価するために、動画ベンチマークがキュレーションされています。包括的な評価を通じて、動画モデルの限界と将来の方向性に関する洞察が明らかになり、次世代の動画モデルへの道が開かれます。
English
Synthetic videos nowadays is widely used to complement data scarcity and diversity of real-world videos. Current synthetic datasets primarily replicate real-world scenarios, leaving impossible, counterfactual and anti-reality video concepts underexplored. This work aims to answer two questions: 1) Can today's video generation models effectively follow prompts to create impossible video content? 2) Are today's video understanding models good enough for understanding impossible videos? To this end, we introduce IPV-Bench, a novel benchmark designed to evaluate and foster progress in video understanding and generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing 4 domains, 14 categories. It features diverse scenes that defy physical, biological, geographical, or social laws. Based on the taxonomy, a prompt suite is constructed to evaluate video generation models, challenging their prompt following and creativity capabilities. In addition, a video benchmark is curated to assess Video-LLMs on their ability of understanding impossible videos, which particularly requires reasoning on temporal dynamics and world knowledge. Comprehensive evaluations reveal limitations and insights for future directions of video models, paving the way for next-generation video models.

Summary

AI-Generated Summary

PDF622March 19, 2025