Onmogelijke Video's
Impossible Videos
March 18, 2025
Auteurs: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI
Samenvatting
Synthetische video's worden tegenwoordig veel gebruikt om de schaarste en diversiteit van real-world video's aan te vullen. Huidige synthetische datasets repliceren voornamelijk real-world scenario's, waardoor onmogelijke, tegenstrijdige en anti-realistische videoconcepten onderbelicht blijven. Dit werk beoogt twee vragen te beantwoorden: 1) Kunnen de huidige videogeneratiemodellen effectief prompts volgen om onmogelijke videocontent te creëren? 2) Zijn de huidige videobegripsmodellen goed genoeg om onmogelijke video's te begrijpen? Hiertoe introduceren we IPV-Bench, een nieuwe benchmark ontworpen om vooruitgang in videobegrip en -generatie te evalueren en te bevorderen. IPV-Bench wordt ondersteund door een uitgebreide taxonomie, die 4 domeinen en 14 categorieën omvat. Het bevat diverse scènes die fysieke, biologische, geografische of sociale wetten tarten. Op basis van de taxonomie is een promptsamengesteld om videogeneratiemodellen te evalueren, waarbij hun vermogen om prompts te volgen en creativiteit wordt getest. Daarnaast is een videobenchmark samengesteld om Video-LLM's te beoordelen op hun vermogen om onmogelijke video's te begrijpen, wat met name redenering over temporele dynamiek en wereldkennis vereist. Uitgebreide evaluaties onthullen beperkingen en inzichten voor toekomstige richtingen van videomodellen, waardoor de weg wordt geëffend voor de volgende generatie videomodellen.
English
Synthetic videos nowadays is widely used to complement data scarcity and
diversity of real-world videos. Current synthetic datasets primarily replicate
real-world scenarios, leaving impossible, counterfactual and anti-reality video
concepts underexplored. This work aims to answer two questions: 1) Can today's
video generation models effectively follow prompts to create impossible video
content? 2) Are today's video understanding models good enough for
understanding impossible videos? To this end, we introduce IPV-Bench, a novel
benchmark designed to evaluate and foster progress in video understanding and
generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing
4 domains, 14 categories. It features diverse scenes that defy physical,
biological, geographical, or social laws. Based on the taxonomy, a prompt suite
is constructed to evaluate video generation models, challenging their prompt
following and creativity capabilities. In addition, a video benchmark is
curated to assess Video-LLMs on their ability of understanding impossible
videos, which particularly requires reasoning on temporal dynamics and world
knowledge. Comprehensive evaluations reveal limitations and insights for future
directions of video models, paving the way for next-generation video models.Summary
AI-Generated Summary