Marcas Reveladoras de Ação Gerativa: Avaliação do Movimento Humano em Vídeos Sintetizados

Resumo

Apesar dos rápidos avanços nos modelos generativos de vídeo, métricas robustas para avaliar a correção visual e temporal de ações humanas complexas permanecem elusivas. De forma crítica, os codificadores puramente visuais e os Modelos de Linguagem Multimodais (MLLMs) existentes são fortemente enviesados pela aparência, carecem de compreensão temporal e, portanto, lutam para discernir dinâmicas de movimento intrincadas e implausibilidades anatômicas em vídeos gerados. Nós abordamos esta lacuna introduzindo uma nova métrica de avaliação derivada de um espaço latente aprendido de ações humanas do mundo real. Nosso método primeiro captura as nuances, restrições e suavidade temporal do movimento real fundindo características geométricas do esqueleto humano, agnósticas à aparência, com características baseadas na aparência. Postulamos que este espaço de características combinado fornece uma representação robusta da plausibilidade da ação. Dado um vídeo gerado, nossa métrica quantifica sua qualidade de ação medindo a distância entre as suas representações subjacentes e esta distribuição de ações do mundo real aprendida. Para uma validação rigorosa, desenvolvemos um novo benchmark multifacetado especificamente projetado para investigar aspectos temporalmente desafiadores da fidelidade de ações humanas. Através de experimentos extensivos, mostramos que nossa métrica alcança uma melhoria substancial de mais de 68% em comparação com os métodos state-of-the-art existentes em nosso benchmark, tem um desempenho competitivo em benchmarks externos estabelecidos e possui uma correlação mais forte com a percepção humana. Nossa análise aprofundada revela limitações críticas nos atuais modelos generativos de vídeo e estabelece um novo padrão para pesquisas avançadas em geração de vídeo.

English

Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.

Marcas Reveladoras de Ação Gerativa: Avaliação do Movimento Humano em Vídeos Sintetizados

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

Resumo

Support