ChatPaper.aiChatPaper

Video Impossibili

Impossible Videos

March 18, 2025
Autori: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI

Abstract

I video sintetici sono oggi ampiamente utilizzati per integrare la scarsità e la diversità dei video del mondo reale. Gli attuali dataset sintetici replicano principalmente scenari reali, lasciando inesplorati concetti video impossibili, controfattuali e anti-reali. Questo lavoro mira a rispondere a due domande: 1) I modelli di generazione video odierni sono in grado di seguire efficacemente i prompt per creare contenuti video impossibili? 2) I modelli di comprensione video odierni sono sufficientemente avanzati per comprendere video impossibili? A tal fine, introduciamo IPV-Bench, un nuovo benchmark progettato per valutare e promuovere il progresso nella comprensione e generazione video. IPV-Bench è supportato da una tassonomia completa, che comprende 4 domini e 14 categorie. Presenta scene diverse che sfidano le leggi fisiche, biologiche, geografiche o sociali. Sulla base della tassonomia, è stato costruito un insieme di prompt per valutare i modelli di generazione video, mettendo alla prova le loro capacità di seguire i prompt e di creatività. Inoltre, è stato curato un benchmark video per valutare i Video-LLM sulla loro capacità di comprendere video impossibili, che richiede in particolare ragionamenti sulla dinamica temporale e sulla conoscenza del mondo. Valutazioni complete rivelano limitazioni e spunti per le future direzioni dei modelli video, aprendo la strada ai modelli video di prossima generazione.
English
Synthetic videos nowadays is widely used to complement data scarcity and diversity of real-world videos. Current synthetic datasets primarily replicate real-world scenarios, leaving impossible, counterfactual and anti-reality video concepts underexplored. This work aims to answer two questions: 1) Can today's video generation models effectively follow prompts to create impossible video content? 2) Are today's video understanding models good enough for understanding impossible videos? To this end, we introduce IPV-Bench, a novel benchmark designed to evaluate and foster progress in video understanding and generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing 4 domains, 14 categories. It features diverse scenes that defy physical, biological, geographical, or social laws. Based on the taxonomy, a prompt suite is constructed to evaluate video generation models, challenging their prompt following and creativity capabilities. In addition, a video benchmark is curated to assess Video-LLMs on their ability of understanding impossible videos, which particularly requires reasoning on temporal dynamics and world knowledge. Comprehensive evaluations reveal limitations and insights for future directions of video models, paving the way for next-generation video models.

Summary

AI-Generated Summary

PDF622March 19, 2025