ChatPaper.aiChatPaper

Indicadores de Acción Generativa: Evaluación del Movimiento Humano en Videos Sintetizados

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

December 1, 2025
Autores: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram
cs.AI

Resumen

A pesar de los rápidos avances en los modelos generativos de vídeo, las métricas robustas para evaluar la corrección visual y temporal de acciones humanas complejas siguen siendo esquivas. Críticamente, los codificadores de visión pura y los Modelos de Lenguaje Grandes Multimodales (MLLM) existentes están fuertemente sesgados hacia la apariencia, carecen de comprensión temporal y, por lo tanto, tienen dificultades para discernir las dinámicas de movimiento intrincadas y las implausibilidades anatómicas en los vídeos generados. Abordamos esta brecha introduciendo una nueva métrica de evaluación derivada de un espacio latente aprendido de acciones humanas del mundo real. Nuestro método captura primero los matices, las restricciones y la suavidad temporal del movimiento real fusionando características geométricas del esqueleto humano, independientes de la apariencia, con características basadas en la apariencia. Postulamos que este espacio de características combinado proporciona una representación robusta de la plausibilidad de la acción. Dado un vídeo generado, nuestra métrica cuantifica su calidad de acción midiendo la distancia entre sus representaciones subyacentes y esta distribución de acciones reales aprendida. Para una validación rigurosa, desarrollamos un nuevo benchmark multifacético diseñado específicamente para explorar aspectos temporalmente desafiantes de la fidelidad de la acción humana. A través de experimentos exhaustivos, mostramos que nuestra métrica logra una mejora sustancial de más del 68% en comparación con los métodos existentes de última generación en nuestro benchmark, tiene un desempeño competitivo en benchmarks externos establecidos y presenta una correlación más fuerte con la percepción humana. Nuestro análisis en profundidad revela limitaciones críticas en los modelos generativos de vídeo actuales y establece un nuevo estándar para la investigación avanzada en generación de vídeo.
English
Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.
PDF11December 6, 2025