ChatPaper.aiChatPaper

Generatieve Actie Kenmerken: Het Beoordelen van Menselijke Beweging in Gesynthetiseerde Video's

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

December 1, 2025
Auteurs: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram
cs.AI

Samenvatting

Ondanks snelle vooruitgang in videogeneratieve modellen blijft robuuste evaluatie van de visuele en temporele correctheid van complexe menselijke handelingen een uitdaging. Cruciaal is dat bestaande pure-visie-encoders en Multimodale Large Language Models (MLLM's) sterk op uiterlijk gericht zijn, temporeel begrip missen, en daardoor moeite hebben met het onderscheiden van complexe bewegingsdynamiek en anatomische ongerijmdheden in gegenereerde video's. Wij dichten deze kloof door een nieuwe evaluatiemetriek te introduceren, afgeleid van een aangeleerde latente ruimte van menselijke handelingen uit de echte wereld. Onze methode vangt eerst de nuances, beperkingen en temporele vloeiendheid van realistische beweging door appearance-agnostische geometrische kenmerken van het menselijk skelet te combineren met op uiterlijk gebaseerde kenmerken. Wij veronderstellen dat deze gecombineerde kenmerkenruimte een robuuste representatie van handelingsgeloofwaardigheid biedt. Voor een gegenereerde video kwantificeert onze metriek de kwaliteit van de handeling door de afstand tussen de onderliggende representaties en deze aangeleerde verdeling van realistische handelingen te meten. Voor rigoureuze validatie ontwikkelen we een nieuwe, veelzijdige benchmark die specifiek is ontworpen om temporeel uitdagende aspecten van menselijke handelingsnauwkeurigheid te onderzoeken. Uitgebreide experimenten tonen aan dat onze metriek een substantiële verbetering van meer dan 68% bereikt ten opzichte van bestaande state-of-the-art methoden op onze benchmark, competitief presteert op gevestigde externe benchmarks, en een sterkere correlatie vertoont met menselijke perceptie. Onze diepgaande analyse onthult kritieke beperkingen in huidige videogeneratieve modellen en vestigt een nieuwe standaard voor geavanceerd onderzoek in videogeneratie.
English
Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.
PDF42December 21, 2025