Videos Imposibles
Impossible Videos
March 18, 2025
Autores: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI
Resumen
Los videos sintéticos son ampliamente utilizados en la actualidad para complementar la escasez y diversidad de videos del mundo real. Los conjuntos de datos sintéticos actuales replican principalmente escenarios del mundo real, dejando subexplorados conceptos de videos imposibles, contrafactuales y antirrealistas. Este trabajo busca responder dos preguntas: 1) ¿Pueden los modelos actuales de generación de videos seguir instrucciones de manera efectiva para crear contenido de video imposible? 2) ¿Son los modelos actuales de comprensión de videos lo suficientemente buenos para entender videos imposibles? Para ello, presentamos IPV-Bench, un nuevo punto de referencia diseñado para evaluar y fomentar el progreso en la comprensión y generación de videos. IPV-Bench se basa en una taxonomía integral que abarca 4 dominios y 14 categorías. Incluye escenas diversas que desafían las leyes físicas, biológicas, geográficas o sociales. A partir de esta taxonomía, se construye un conjunto de instrucciones para evaluar modelos de generación de videos, desafiando sus capacidades de seguimiento de instrucciones y creatividad. Además, se ha creado un conjunto de videos de referencia para evaluar la capacidad de los Video-LLMs para comprender videos imposibles, lo que requiere especialmente razonamiento sobre dinámicas temporales y conocimiento del mundo. Las evaluaciones exhaustivas revelan limitaciones e ideas para futuras direcciones de los modelos de video, allanando el camino para la próxima generación de modelos de video.
English
Synthetic videos nowadays is widely used to complement data scarcity and
diversity of real-world videos. Current synthetic datasets primarily replicate
real-world scenarios, leaving impossible, counterfactual and anti-reality video
concepts underexplored. This work aims to answer two questions: 1) Can today's
video generation models effectively follow prompts to create impossible video
content? 2) Are today's video understanding models good enough for
understanding impossible videos? To this end, we introduce IPV-Bench, a novel
benchmark designed to evaluate and foster progress in video understanding and
generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing
4 domains, 14 categories. It features diverse scenes that defy physical,
biological, geographical, or social laws. Based on the taxonomy, a prompt suite
is constructed to evaluate video generation models, challenging their prompt
following and creativity capabilities. In addition, a video benchmark is
curated to assess Video-LLMs on their ability of understanding impossible
videos, which particularly requires reasoning on temporal dynamics and world
knowledge. Comprehensive evaluations reveal limitations and insights for future
directions of video models, paving the way for next-generation video models.Summary
AI-Generated Summary