FinePhys: Geração de Ações Humanas de Alta Granularidade pela Incorporação Explícita de Leis Físicas para Orientação Eficaz do Esqueleto
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance
May 19, 2025
Autores: Dian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang
cs.AI
Resumo
Apesar dos avanços significativos na geração de vídeos, a síntese de ações humanas fisicamente plausíveis continua sendo um desafio persistente, particularmente na modelagem de semântica refinada e dinâmicas temporais complexas. Por exemplo, gerar rotinas de ginástica como "salto com mudança de 0,5 giro" apresenta dificuldades substanciais para os métodos atuais, frequentemente resultando em resultados insatisfatórios. Para preencher essa lacuna, propomos o FinePhys, um framework de geração de ações humanas refinadas que incorpora Física para obter orientação esquelética eficaz. Especificamente, o FinePhys primeiro estima poses 2D de maneira online e, em seguida, realiza a elevação de 2D para 3D por meio de aprendizado em contexto. Para mitigar a instabilidade e a limitada interpretabilidade das poses 3D puramente baseadas em dados, introduzimos ainda um módulo de reestimação de movimento baseado em física, governado por equações de Euler-Lagrange, calculando acelerações articulares por meio de atualização temporal bidirecional. As poses 3D fisicamente previstas são então fundidas com as baseadas em dados, oferecendo orientação de mapa de calor 2D em múltiplas escalas para o processo de difusão. Avaliado em três subconjuntos de ações refinadas do FineGym (FX-JUMP, FX-TURN e FX-SALTO), o FinePhys supera significativamente as linhas de base competitivas. Resultados qualitativos abrangentes demonstram ainda a capacidade do FinePhys de gerar ações humanas refinadas mais naturais e plausíveis.
English
Despite significant advances in video generation, synthesizing physically
plausible human actions remains a persistent challenge, particularly in
modeling fine-grained semantics and complex temporal dynamics. For instance,
generating gymnastics routines such as "switch leap with 0.5 turn" poses
substantial difficulties for current methods, often yielding unsatisfactory
results. To bridge this gap, we propose FinePhys, a Fine-grained human action
generation framework that incorporates Physics to obtain effective skeletal
guidance. Specifically, FinePhys first estimates 2D poses in an online manner
and then performs 2D-to-3D dimension lifting via in-context learning. To
mitigate the instability and limited interpretability of purely data-driven 3D
poses, we further introduce a physics-based motion re-estimation module
governed by Euler-Lagrange equations, calculating joint accelerations via
bidirectional temporal updating. The physically predicted 3D poses are then
fused with data-driven ones, offering multi-scale 2D heatmap guidance for the
diffusion process. Evaluated on three fine-grained action subsets from FineGym
(FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms
competitive baselines. Comprehensive qualitative results further demonstrate
FinePhys's ability to generate more natural and plausible fine-grained human
actions.