FinePhys: Generazione di Azioni Umane a Grana Fine mediante l'Integrazione Esplicita di Leggi Fisiche per una Guida Scheletrica Efficace
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance
May 19, 2025
Autori: Dian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang
cs.AI
Abstract
Nonostante i significativi progressi nella generazione di video, la sintesi di azioni umane fisicamente plausibili rimane una sfida persistente, in particolare nella modellazione della semantica fine e delle dinamiche temporali complesse. Ad esempio, generare routine ginniche come il "salto con cambio e mezzo giro" presenta difficoltà sostanziali per i metodi attuali, spesso producendo risultati insoddisfacenti. Per colmare questa lacuna, proponiamo FinePhys, un framework per la generazione di azioni umane di dettaglio che incorpora la fisica per ottenere una guida scheletrica efficace. Nello specifico, FinePhy stima prima le pose 2D in modo online e poi esegue il passaggio da 2D a 3D tramite apprendimento contestuale. Per mitigare l'instabilità e la limitata interpretabilità delle pose 3D puramente basate sui dati, introduciamo ulteriormente un modulo di ri-stima del movimento basato sulla fisica governato dalle equazioni di Eulero-Lagrange, calcolando le accelerazioni delle articolazioni tramite aggiornamento temporale bidirezionale. Le pose 3D previste fisicamente vengono quindi fuse con quelle basate sui dati, offrendo una guida multi-scala delle mappe di calore 2D per il processo di diffusione. Valutato su tre sottoinsiemi di azioni di dettaglio di FineGym (FX-JUMP, FX-TURN e FX-SALTO), FinePhy supera significativamente i baseline competitivi. I risultati qualitativi completi dimostrano ulteriormente la capacità di FinePhy di generare azioni umane di dettaglio più naturali e plausibili.
English
Despite significant advances in video generation, synthesizing physically
plausible human actions remains a persistent challenge, particularly in
modeling fine-grained semantics and complex temporal dynamics. For instance,
generating gymnastics routines such as "switch leap with 0.5 turn" poses
substantial difficulties for current methods, often yielding unsatisfactory
results. To bridge this gap, we propose FinePhys, a Fine-grained human action
generation framework that incorporates Physics to obtain effective skeletal
guidance. Specifically, FinePhys first estimates 2D poses in an online manner
and then performs 2D-to-3D dimension lifting via in-context learning. To
mitigate the instability and limited interpretability of purely data-driven 3D
poses, we further introduce a physics-based motion re-estimation module
governed by Euler-Lagrange equations, calculating joint accelerations via
bidirectional temporal updating. The physically predicted 3D poses are then
fused with data-driven ones, offering multi-scale 2D heatmap guidance for the
diffusion process. Evaluated on three fine-grained action subsets from FineGym
(FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms
competitive baselines. Comprehensive qualitative results further demonstrate
FinePhys's ability to generate more natural and plausible fine-grained human
actions.