ChatPaper.aiChatPaper

Generative Action Tell-Tales: Valutazione del Movimento Umano nei Video Sintetizzati

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

December 1, 2025
Autori: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram
cs.AI

Abstract

Nonostante i rapidi progressi nei modelli generativi video, metriche robuste per valutare la correttezza visiva e temporale di azioni umane complesse rimangono elusive. In modo critico, gli attuali encoder basati esclusivamente sulla visione e i Modelli Multimodali di Linguaggio di Grande Scala (MLLM) sono fortemente influenzati dall'aspetto esteriore, mancano di comprensione temporale e, di conseguenza, faticano a discernere le intricate dinamiche di movimento e le implausibilità anatomiche nei video generati. Affrontiamo questa lacuna introducendo una nuova metrica di valutazione derivata da uno spazio latente appreso da azioni umane del mondo reale. Il nostro metodo cattura dapprima le sfumature, i vincoli e la fluidità temporale del movimento reale fondendo caratteristiche geometriche dello scheletro umano, agnostiche rispetto all'aspetto, con caratteristiche basate sull'apparenza. Postuliamo che questo spazio di caratteristiche combinato fornisca una rappresentazione robusta della plausibilità dell'azione. Dato un video generato, la nostra metrica ne quantifica la qualità azionale misurando la distanza tra le sue rappresentazioni sottostanti e questa distribuzione appresa di azioni reali. Per una validazione rigorosa, abbiamo sviluppato un nuovo benchmark multisfaccettato specificamente progettato per investigare aspetti temporalmente impegnativi della fedeltà delle azioni umane. Attraverso esperimenti estesi, dimostriamo che la nostra metrica ottiene un miglioramento sostanziale di oltre il 68% rispetto ai metodi allo stato dell'arte esistenti sul nostro benchmark, si comporta in modo competitivo su benchmark esterni consolidati e ha una correlazione più forte con la percezione umana. La nostra analisi approfondita rivela limitazioni critiche negli attuali modelli generativi video e stabilisce un nuovo standard per la ricerca avanzata nella generazione video.
English
Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.
PDF42December 21, 2025