VBench-2.0: 본질적 충실도를 위한 비디오 생성 벤치마크 제품군의 발전
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
March 27, 2025
저자: Dian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu
cs.AI
초록
비디오 생성 기술은 비현실적인 결과물을 생성하는 단계에서 시각적으로 설득력 있고 시간적으로 일관된 비디오를 생성하는 단계로 크게 발전했습니다. 이러한 비디오 생성 모델을 평가하기 위해 VBench와 같은 벤치마크가 개발되어 프레임별 미적 요소, 시간적 일관성, 기본 프롬프트 준수 등과 같은 요소를 측정하는 충실도를 평가합니다. 그러나 이러한 측면들은 주로 비디오가 시각적으로 설득력 있는지 여부에 초점을 맞춘 표면적인 충실도를 나타냅니다. 최근 모델들은 이러한 지표에서 점점 더 좋은 성능을 보이고 있지만, 단순히 시각적으로 그럴듯한 것뿐만 아니라 근본적으로 현실적인 비디오를 생성하는 데는 여전히 어려움을 겪고 있습니다. 비디오 생성을 통해 진정한 "세계 모델"을 달성하기 위해서는 생성된 비디오가 물리 법칙, 상식적 추론, 해부학적 정확성, 구성적 완전성을 준수하는 내재적 충실도를 보장하는 것이 다음 단계의 과제입니다. 이러한 수준의 현실감은 AI 보조 영화 제작 및 시뮬레이션된 세계 모델링과 같은 응용 분야에서 필수적입니다. 이 격차를 해소하기 위해 우리는 내재적 충실도를 자동으로 평가하기 위해 설계된 차세대 벤치마크인 VBench-2.0을 소개합니다. VBench-2.0은 인간 충실도, 제어 가능성, 창의성, 물리학, 상식이라는 다섯 가지 주요 차원을 평가하며, 각 차원은 더 세분화된 능력으로 나뉩니다. 각 차원에 맞춤화된 우리의 평가 프레임워크는 최첨단 VLM 및 LLM과 같은 일반적인 모델과 비디오 생성을 위해 제안된 이상 탐지 방법과 같은 전문가를 통합합니다. 우리는 인간의 판단과 일치하도록 광범위한 주석 작업을 수행합니다. 표면적인 충실도를 넘어 내재적 충실도를 추구함으로써 VBench-2.0은 차세대 비디오 생성 모델을 위한 새로운 표준을 제시하는 것을 목표로 합니다.
English
Video generation has advanced significantly, evolving from producing
unrealistic outputs to generating videos that appear visually convincing and
temporally coherent. To evaluate these video generative models, benchmarks such
as VBench have been developed to assess their faithfulness, measuring factors
like per-frame aesthetics, temporal consistency, and basic prompt adherence.
However, these aspects mainly represent superficial faithfulness, which focus
on whether the video appears visually convincing rather than whether it adheres
to real-world principles. While recent models perform increasingly well on
these metrics, they still struggle to generate videos that are not just
visually plausible but fundamentally realistic. To achieve real "world models"
through video generation, the next frontier lies in intrinsic faithfulness to
ensure that generated videos adhere to physical laws, commonsense reasoning,
anatomical correctness, and compositional integrity. Achieving this level of
realism is essential for applications such as AI-assisted filmmaking and
simulated world modeling. To bridge this gap, we introduce VBench-2.0, a
next-generation benchmark designed to automatically evaluate video generative
models for their intrinsic faithfulness. VBench-2.0 assesses five key
dimensions: Human Fidelity, Controllability, Creativity, Physics, and
Commonsense, each further broken down into fine-grained capabilities. Tailored
for individual dimensions, our evaluation framework integrates generalists such
as state-of-the-art VLMs and LLMs, and specialists, including anomaly detection
methods proposed for video generation. We conduct extensive annotations to
ensure alignment with human judgment. By pushing beyond superficial
faithfulness toward intrinsic faithfulness, VBench-2.0 aims to set a new
standard for the next generation of video generative models in pursuit of
intrinsic faithfulness.Summary
AI-Generated Summary