ChatPaper.aiChatPaper

Генеративные маркеры действий: оценка движений человека в синтезированных видеороликах

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

December 1, 2025
Авторы: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram
cs.AI

Аннотация

Несмотря на быстрый прогресс в моделях генерации видео, надежные метрики для оценки визуальной и временной корректности сложных человеческих действий остаются недостижимыми. Критически важно, что существующие чисто визуальные энкодеры и мультимодальные большие языковые модели (MLLM) сильно смещены в сторону внешнего вида, не обладают пониманием временных зависимостей и, следовательно, не способны распознавать сложную динамику движений и анатомические несоответствия в сгенерированных видео. Мы решаем эту проблему, представляя новую метрику оценки, основанную на изученном латентном пространстве реальных человеческих действий. Наш метод сначала фиксирует нюансы, ограничения и временную плавность реальных движений путем объединения не зависящих от внешнего вида признаков скелетной геометрии человека с признаками, основанными на внешнем виде. Мы предполагаем, что это комбинированное пространство признаков обеспечивает надежное представление правдоподобности действия. Для заданного сгенерированного видео наша метрика количественно оценивает его качество, измеряя расстояние между его внутренними представлениями и этим изученным распределением реальных действий. Для строгой валидации мы разработали новый многогранный бенчмарк, специально предназначенный для исследования временно сложных аспектов достоверности человеческих действий. В ходе обширных экспериментов мы показываем, что наша метрика достигает существенного улучшения более чем на 68% по сравнению с существующими передовыми методами на нашем бенчмарке, демонстрирует конкурентоспособные результаты на established внешних бенчмарках и имеет более сильную корреляцию с человеческим восприятием. Наш глубокий анализ выявляет критические ограничения современных моделей генерации видео и устанавливает новый стандарт для передовых исследований в этой области.
English
Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.
PDF11December 6, 2025