ChatPaper.aiChatPaper

FinePhys: Generación de Acciones Humanas de Grano Fino mediante la Incorporación Explícita de Leyes Físicas para una Guía Esquelética Efectiva

FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

May 19, 2025
Autores: Dian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang
cs.AI

Resumen

A pesar de los avances significativos en la generación de videos, sintetizar acciones humanas físicamente plausibles sigue siendo un desafío persistente, particularmente en el modelado de semántica de grano fino y dinámicas temporales complejas. Por ejemplo, generar rutinas de gimnasia como el "salto de cambio con giro de 0.5" presenta dificultades sustanciales para los métodos actuales, a menudo produciendo resultados insatisfactorios. Para cerrar esta brecha, proponemos FinePhys, un marco de generación de acciones humanas de grano fino que incorpora física para obtener una guía esquelética efectiva. Específicamente, FinePhys primero estima poses 2D de manera en línea y luego realiza una elevación de dimensión 2D a 3D mediante aprendizaje en contexto. Para mitigar la inestabilidad y la limitada interpretabilidad de las poses 3D puramente basadas en datos, introducimos además un módulo de reestimación de movimiento basado en física gobernado por ecuaciones de Euler-Lagrange, calculando aceleraciones articulares mediante actualización temporal bidireccional. Las poses 3D predichas físicamente se fusionan luego con las basadas en datos, ofreciendo una guía de mapas de calor 2D a múltiples escalas para el proceso de difusión. Evaluado en tres subconjuntos de acciones de grano fino de FineGym (FX-JUMP, FX-TURN y FX-SALTO), FinePhys supera significativamente a los baselines competitivos. Los resultados cualitativos exhaustivos demuestran además la capacidad de FinePhys para generar acciones humanas de grano fino más naturales y plausibles.
English
Despite significant advances in video generation, synthesizing physically plausible human actions remains a persistent challenge, particularly in modeling fine-grained semantics and complex temporal dynamics. For instance, generating gymnastics routines such as "switch leap with 0.5 turn" poses substantial difficulties for current methods, often yielding unsatisfactory results. To bridge this gap, we propose FinePhys, a Fine-grained human action generation framework that incorporates Physics to obtain effective skeletal guidance. Specifically, FinePhys first estimates 2D poses in an online manner and then performs 2D-to-3D dimension lifting via in-context learning. To mitigate the instability and limited interpretability of purely data-driven 3D poses, we further introduce a physics-based motion re-estimation module governed by Euler-Lagrange equations, calculating joint accelerations via bidirectional temporal updating. The physically predicted 3D poses are then fused with data-driven ones, offering multi-scale 2D heatmap guidance for the diffusion process. Evaluated on three fine-grained action subsets from FineGym (FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms competitive baselines. Comprehensive qualitative results further demonstrate FinePhys's ability to generate more natural and plausible fine-grained human actions.

Summary

AI-Generated Summary

PDF41May 20, 2025