FinePhys : Génération fine d'actions humaines en intégrant explicitement les lois physiques pour un guidage squelettique efficace
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance
May 19, 2025
Auteurs: Dian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang
cs.AI
Résumé
Malgré des avancées significatives dans la génération de vidéos, la synthèse d'actions humaines physiquement plausibles reste un défi persistant, en particulier dans la modélisation de la sémantique fine et des dynamiques temporelles complexes. Par exemple, générer des routines de gymnastique telles que le "saut de changement avec demi-tour" pose des difficultés substantielles pour les méthodes actuelles, produisant souvent des résultats insatisfaisants. Pour combler cette lacune, nous proposons FinePhys, un cadre de génération d'actions humaines à granularité fine qui intègre la physique pour obtenir un guidage squelettique efficace. Plus précisément, FinePhys estime d'abord les poses 2D en temps réel, puis effectue une élévation de dimension 2D à 3D via un apprentissage contextuel. Pour atténuer l'instabilité et la faible interprétabilité des poses 3D purement basées sur les données, nous introduisons en outre un module de réestimation du mouvement basé sur la physique, gouverné par les équations d'Euler-Lagrange, calculant les accélérations articulaires via une mise à jour temporelle bidirectionnelle. Les poses 3D prédites physiquement sont ensuite fusionnées avec celles basées sur les données, offrant un guidage multi-échelle de cartes thermiques 2D pour le processus de diffusion. Évalué sur trois sous-ensembles d'actions à granularité fine de FineGym (FX-JUMP, FX-TURN et FX-SALTO), FinePhys surpasse significativement les bases de référence concurrentes. Les résultats qualitatifs complets démontrent en outre la capacité de FinePhys à générer des actions humaines à granularité fine plus naturelles et plausibles.
English
Despite significant advances in video generation, synthesizing physically
plausible human actions remains a persistent challenge, particularly in
modeling fine-grained semantics and complex temporal dynamics. For instance,
generating gymnastics routines such as "switch leap with 0.5 turn" poses
substantial difficulties for current methods, often yielding unsatisfactory
results. To bridge this gap, we propose FinePhys, a Fine-grained human action
generation framework that incorporates Physics to obtain effective skeletal
guidance. Specifically, FinePhys first estimates 2D poses in an online manner
and then performs 2D-to-3D dimension lifting via in-context learning. To
mitigate the instability and limited interpretability of purely data-driven 3D
poses, we further introduce a physics-based motion re-estimation module
governed by Euler-Lagrange equations, calculating joint accelerations via
bidirectional temporal updating. The physically predicted 3D poses are then
fused with data-driven ones, offering multi-scale 2D heatmap guidance for the
diffusion process. Evaluated on three fine-grained action subsets from FineGym
(FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms
competitive baselines. Comprehensive qualitative results further demonstrate
FinePhys's ability to generate more natural and plausible fine-grained human
actions.Summary
AI-Generated Summary