불가능한 비디오
Impossible Videos
March 18, 2025
저자: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI
초록
현재 합성 비디오는 실제 비디오의 데이터 부족과 다양성을 보완하기 위해 널리 사용되고 있습니다. 현재의 합성 데이터셋은 주로 실제 시나리오를 복제하는 데 초점을 맞추고 있어, 불가능한, 반사실적이며 현실을 거스르는 비디오 개념들은 충분히 탐구되지 않고 있습니다. 본 연구는 두 가지 질문에 답하고자 합니다: 1) 오늘날의 비디오 생성 모델이 불가능한 비디오 콘텐츠를 생성하기 위해 프롬프트를 효과적으로 따를 수 있는가? 2) 오늘날의 비디오 이해 모델이 불가능한 비디오를 이해하기에 충분히 우수한가? 이를 위해, 우리는 비디오 이해와 생성 분야의 진전을 평가하고 촉진하기 위한 새로운 벤치마크인 IPV-Bench를 소개합니다. IPV-Bench는 4개의 도메인과 14개의 카테고리를 포함하는 포괄적인 분류 체계를 기반으로 합니다. 이 벤치마크는 물리적, 생물학적, 지리적 또는 사회적 법칙을 거스르는 다양한 장면을 특징으로 합니다. 이 분류 체계를 바탕으로, 비디오 생성 모델의 프롬프트 준수 능력과 창의성을 평가하기 위한 프롬프트 세트가 구성되었습니다. 또한, 불가능한 비디오를 이해하는 능력을 평가하기 위해 Video-LLMs를 대상으로 한 비디오 벤치마크가 구성되었으며, 이는 특히 시간적 역학과 세계 지식에 대한 추론을 요구합니다. 포괄적인 평가를 통해 비디오 모델의 한계와 향후 방향에 대한 통찰을 얻었으며, 이를 통해 차세대 비디오 모델을 위한 길을 열었습니다.
English
Synthetic videos nowadays is widely used to complement data scarcity and
diversity of real-world videos. Current synthetic datasets primarily replicate
real-world scenarios, leaving impossible, counterfactual and anti-reality video
concepts underexplored. This work aims to answer two questions: 1) Can today's
video generation models effectively follow prompts to create impossible video
content? 2) Are today's video understanding models good enough for
understanding impossible videos? To this end, we introduce IPV-Bench, a novel
benchmark designed to evaluate and foster progress in video understanding and
generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing
4 domains, 14 categories. It features diverse scenes that defy physical,
biological, geographical, or social laws. Based on the taxonomy, a prompt suite
is constructed to evaluate video generation models, challenging their prompt
following and creativity capabilities. In addition, a video benchmark is
curated to assess Video-LLMs on their ability of understanding impossible
videos, which particularly requires reasoning on temporal dynamics and world
knowledge. Comprehensive evaluations reveal limitations and insights for future
directions of video models, paving the way for next-generation video models.Summary
AI-Generated Summary