ChatPaper.aiChatPaper

Signaux d'action générative : Évaluation du mouvement humain dans les vidéos synthétisées

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

December 1, 2025
papers.authors: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram
cs.AI

papers.abstract

Malgré les progrès rapides des modèles génératifs vidéo, des métriques robustes pour évaluer la justesse visuelle et temporelle des actions humaines complexes restent insaisissables. De façon critique, les encodeurs purement visuels existants et les Modèles de Langage de Grande Taille Multimodaux (MLLM) sont fortement biaisés par l'apparence, manquent de compréhension temporelle, et ont donc du mal à discerner les dynamiques de mouvement complexes et les invraisemblances anatomiques dans les vidéos générées. Nous abordons cette lacune en introduisant une nouvelle métrique d'évaluation dérivée d'un espace latent appris à partir d'actions humaines réelles. Notre méthode capture d'abord les nuances, les contraintes et la fluidité temporelle du mouvement réel en fusionnant des caractéristiques géométriques du squelette humain, agnostiques à l'apparence, avec des caractéristiques basées sur l'apparence. Nous postulons que cet espace de caractéristiques combiné fournit une représentation robuste de la plausibilité de l'action. Étant donné une vidéo générée, notre métrique quantifie sa qualité d'action en mesurant la distance entre ses représentations sous-jacentes et cette distribution d'actions réelles apprise. Pour une validation rigoureuse, nous développons un nouveau benchmark multidimensionnel conçu spécifiquement pour sonder les aspects temporellement difficiles de la fidélité des actions humaines. À travers des expériences approfondies, nous montrons que notre métrique obtient une amélioration substantielle de plus de 68 % par rapport aux méthodes état de l'art existantes sur notre benchmark, réalise des performances compétitives sur des benchmarks externes établis, et présente une corrélation plus forte avec la perception humaine. Notre analyse approfondie révèle des limitations critiques dans les modèles génératifs vidéo actuels et établit une nouvelle norme pour la recherche avancée en génération vidéo.
English
Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.
PDF11December 6, 2025