ChatPaper.aiChatPaper

Generative Aktions-Indikatoren: Bewertung menschlicher Bewegungen in synthetisierten Videos

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

December 1, 2025
papers.authors: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram
cs.AI

papers.abstract

Trotz rascher Fortschritte bei videogenerierenden Modellen bleiben robuste Metriken zur Bewertung der visuellen und zeitlichen Korrektheit komplexer menschlicher Handlungen schwer fassbar. Kritisch ist, dass bestehende reine Bild-Encoder und Multimodale Large Language Models (MLLMs) stark auf das Erscheinungsbild fixiert sind, ein zeitliches Verständnis fehlt und sie somit Schwierigkeiten haben, komplexe Bewegungsdynamiken und anatomische Unplausibilitäten in generierten Videos zu erkennen. Wir begegnen dieser Lücke durch die Einführung einer neuartigen Bewertungsmetrik, die aus einem gelernten latenten Raum realer menschlicher Handlungen abgeleitet wird. Unsere Methode erfasst zunächst die Nuancen, Beschränkungen und zeitliche Glattheit realer Bewegungen, indem erscheinungsbildagnostische Merkmale der menschlichen Skelettgeometrie mit erscheinungsbasierten Merkmalen fusioniert werden. Wir postulieren, dass dieser kombinierte Merkmalsraum eine robuste Darstellung der Handlungsplausibilität bietet. Für ein generiertes Video quantifiziert unsere Metrik dessen Handlungsqualität, indem sie den Abstand zwischen seinen zugrundeliegenden Repräsentationen und dieser gelernten Verteilung realer Handlungen misst. Für eine rigorose Validierung entwickeln wir einen neuen, vielseitigen Benchmark, der speziell dazu konzipiert ist, zeitlich anspruchsvolle Aspekte der menschlichen Handlungstreue zu untersuchen. Durch umfangreiche Experimente zeigen wir, dass unsere Metrik auf unserem Benchmark eine deutliche Verbesserung von mehr als 68 % im Vergleich zu bestehenden state-of-the-art Methoden erzielt, auf etablierten externen Benchmarks wettbewerbsfähig abschneidet und eine stärkere Korrelation mit der menschlichen Wahrnehmung aufweist. Unsere eingehende Analyse deckt kritische Grenzen aktueller videogenerierender Modelle auf und setzt einen neuen Standard für fortgeschrittene Forschung in der Videogenerierung.
English
Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.
PDF11December 6, 2025