생성적 행동 신호: 합성 비디오에서의 인간 동작 평가
Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos
December 1, 2025
저자: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram
cs.AI
초록
비디오 생성 모델의 급속한 발전에도 불구하고, 복잡한 인간 행동의 시각적 및 시간적 정확성을 평가할 수 있는 강력한 지표는 여전히 부족한 실정입니다. 중요한 것은, 기존의 순수 시각 인코더와 멀티모달 대형 언어 모델(MLLMs)이 외형 편향성이 강하고 시간적 이해가 부족하여, 생성된 비디오에서 복잡한 동작 역학과 해부학적 비현실성을 식별하는 데 어려움을 겪는다는 점입니다. 우리는 이러한 격차를 해소하기 위해 실제 인간 행동의 학습된 잠재 공간에서 도출된 새로운 평가 지표를 제안합니다. 우리의 방법은 외형에 무관한 인간 골격 기하학적 특징과 외형 기반 특징을 융합하여 실제 동작의 미묘한 차이, 제약 조건, 그리고 시간적 부드러움을 먼저 포착합니다. 우리는 이 결합된 특징 공간이 행동 현실성에 대한 강력한 표현을 제공한다고 가정합니다. 생성된 비디오가 주어지면, 우리의 지표는 해당 비디오의 내재적 표현과 이 학습된 실제 행동 분포 사이의 거리를 측정하여 행동 품질을 정량화합니다. 엄밀한 검증을 위해, 우리는 인간 행동 현실성의 시간적으로 도전적인 측면들을 집중적으로 탐구하도록 특별히 설계된 새로운 다면적 벤치마크를 개발했습니다. 광범위한 실험을 통해, 우리의 지표가 기존 최첨단 방법 대비 우리 벤치마크에서 68% 이상의 상당한 성능 향상을 달성하고, 기존 외부 벤치마크에서도 경쟁력 있는 성능을 보이며, 인간의 인식과 더 강한 상관관계를 가짐을 입증했습니다. 우리의 심층 분석은 현재 비디오 생성 모델의 중대한 한계를 드러내고, 비디오 생성 분야의 고급 연구를 위한 새로운 기준을 제시합니다.
English
Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.