ChatPaper.aiChatPaper

Vídeos Impossíveis

Impossible Videos

March 18, 2025
Autores: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI

Resumo

Os vídeos sintéticos são amplamente utilizados atualmente para complementar a escassez e a diversidade de vídeos do mundo real. Os conjuntos de dados sintéticos atuais replicam principalmente cenários do mundo real, deixando conceitos de vídeos impossíveis, contrafactuais e antirrealistas pouco explorados. Este trabalho visa responder a duas perguntas: 1) Os modelos atuais de geração de vídeos conseguem seguir prompts de forma eficaz para criar conteúdo de vídeo impossível? 2) Os modelos atuais de compreensão de vídeos são suficientemente bons para entender vídeos impossíveis? Para isso, introduzimos o IPV-Bench, um novo benchmark projetado para avaliar e promover o progresso na compreensão e geração de vídeos. O IPV-Bench é sustentado por uma taxonomia abrangente, abrangendo 4 domínios e 14 categorias. Ele apresenta cenas diversas que desafiam as leis físicas, biológicas, geográficas ou sociais. Com base na taxonomia, um conjunto de prompts é construído para avaliar modelos de geração de vídeos, desafiando suas capacidades de seguir prompts e de criatividade. Além disso, um benchmark de vídeos é curado para avaliar Video-LLMs em sua capacidade de entender vídeos impossíveis, o que exige particularmente raciocínio sobre dinâmicas temporais e conhecimento do mundo. Avaliações abrangentes revelam limitações e insights para direções futuras dos modelos de vídeo, pavimentando o caminho para a próxima geração de modelos de vídeo.
English
Synthetic videos nowadays is widely used to complement data scarcity and diversity of real-world videos. Current synthetic datasets primarily replicate real-world scenarios, leaving impossible, counterfactual and anti-reality video concepts underexplored. This work aims to answer two questions: 1) Can today's video generation models effectively follow prompts to create impossible video content? 2) Are today's video understanding models good enough for understanding impossible videos? To this end, we introduce IPV-Bench, a novel benchmark designed to evaluate and foster progress in video understanding and generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing 4 domains, 14 categories. It features diverse scenes that defy physical, biological, geographical, or social laws. Based on the taxonomy, a prompt suite is constructed to evaluate video generation models, challenging their prompt following and creativity capabilities. In addition, a video benchmark is curated to assess Video-LLMs on their ability of understanding impossible videos, which particularly requires reasoning on temporal dynamics and world knowledge. Comprehensive evaluations reveal limitations and insights for future directions of video models, paving the way for next-generation video models.

Summary

AI-Generated Summary

PDF622March 19, 2025