Vidéos impossibles
Impossible Videos
March 18, 2025
Auteurs: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI
Résumé
Les vidéos synthétiques sont aujourd'hui largement utilisées pour pallier la rareté et le manque de diversité des vidéos du monde réel. Les ensembles de données synthétiques actuels reproduisent principalement des scénarios réalistes, laissant les concepts vidéo impossibles, contrefactuels et anti-réalistes sous-explorés. Ce travail vise à répondre à deux questions : 1) Les modèles actuels de génération de vidéos peuvent-ils suivre efficacement des instructions pour créer du contenu vidéo impossible ? 2) Les modèles actuels de compréhension vidéo sont-ils suffisamment performants pour comprendre des vidéos impossibles ? À cette fin, nous introduisons IPV-Bench, un nouveau benchmark conçu pour évaluer et stimuler les progrès dans la compréhension et la génération de vidéos. IPV-Bench s'appuie sur une taxonomie complète, englobant 4 domaines et 14 catégories. Il propose des scènes variées qui défient les lois physiques, biologiques, géographiques ou sociales. Sur la base de cette taxonomie, un ensemble d'instructions est construit pour évaluer les modèles de génération de vidéos, testant leurs capacités à suivre les instructions et leur créativité. De plus, un benchmark vidéo est élaboré pour évaluer les Video-LLM sur leur capacité à comprendre des vidéos impossibles, ce qui nécessite particulièrement un raisonnement sur la dynamique temporelle et les connaissances du monde. Des évaluations approfondies révèlent des limites et des pistes pour les futures directions des modèles vidéo, ouvrant la voie aux modèles vidéo de nouvelle génération.
English
Synthetic videos nowadays is widely used to complement data scarcity and
diversity of real-world videos. Current synthetic datasets primarily replicate
real-world scenarios, leaving impossible, counterfactual and anti-reality video
concepts underexplored. This work aims to answer two questions: 1) Can today's
video generation models effectively follow prompts to create impossible video
content? 2) Are today's video understanding models good enough for
understanding impossible videos? To this end, we introduce IPV-Bench, a novel
benchmark designed to evaluate and foster progress in video understanding and
generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing
4 domains, 14 categories. It features diverse scenes that defy physical,
biological, geographical, or social laws. Based on the taxonomy, a prompt suite
is constructed to evaluate video generation models, challenging their prompt
following and creativity capabilities. In addition, a video benchmark is
curated to assess Video-LLMs on their ability of understanding impossible
videos, which particularly requires reasoning on temporal dynamics and world
knowledge. Comprehensive evaluations reveal limitations and insights for future
directions of video models, paving the way for next-generation video models.Summary
AI-Generated Summary