ChatPaper.aiChatPaper

生成的動作の兆候:合成映像における人間の動作の評価

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

December 1, 2025
著者: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram
cs.AI

要旨

動画生成モデルの急速な進展にもかかわらず、複雑な人間の行動の視覚的・時間的正しさを評価するための頑健な指標は未だ確立されていない。重要なことに、既存の純粋視覚エンコーダやマルチモーダル大規模言語モデル(MLLM)は外見に強く依存し、時間的理解を欠くため、生成された動画における複雑な動作ダイナミクスや解剖学的に不自然な点を識別するのが困難である。我々はこの課題に対処するため、実世界の人間の行動から学習した潜在空間に基づく新規評価指標を提案する。本手法はまず、外見に依存しない人体骨格形状特徴量と外見ベースの特徴量を融合させることで、実世界の動作のニュアンス、制約、時間的な滑らかさを捉える。この結合された特徴量空間が、行動の妥当性に関する頑健な表現を提供すると仮定する。生成された動画が与えられたとき、本指標は、その動画の基盤となる表現と、この学習済み実世界行動分布との距離を測定することで、行動の質を定量化する。厳密な検証のために、人間の行動の忠実性において時間的に困難な側面を探ることを目的とした、新たな多面的ベンチマークを開発した。大規模な実験を通じて、本指標が既存の最先端手法と比較してベンチマーク上で68%以上の大幅な改善を達成し、確立された外部ベンチマークでも競争力のある性能を発揮し、人間の知覚とのより強い相関を持つことを示す。詳細な分析により、現在の動画生成モデルの重大な限界を明らかにし、動画生成の先進的研究における新たな標準を確立する。
English
Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.
PDF11December 6, 2025