ChatPaper.aiChatPaper

FinePhys: Fein abgestufte Generierung menschlicher Handlungen durch explizite Einbindung physikalischer Gesetze für effektive Skelettführung

FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

May 19, 2025
Autoren: Dian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang
cs.AI

Zusammenfassung

Trotz bedeutender Fortschritte in der Videogenerierung bleibt die Synthese physikalisch plausibler menschlicher Bewegungen eine anhaltende Herausforderung, insbesondere bei der Modellierung feinkörniger Semantik und komplexer zeitlicher Dynamiken. Beispielsweise stellt die Generierung von Gymnastikübungen wie dem „Wechselsprung mit 0,5 Drehung“ erhebliche Schwierigkeiten für aktuelle Methoden dar, die oft unbefriedigende Ergebnisse liefern. Um diese Lücke zu schließen, schlagen wir FinePhys vor, ein feinkörniges Framework zur Generierung menschlicher Bewegungen, das Physik einbezieht, um effektive skelettale Leitlinien zu erhalten. Konkret schätzt FinePhys zunächst 2D-Posen in Echtzeit und führt dann eine 2D-zu-3D-Dimensionierung durch kontextbezogenes Lernen durch. Um die Instabilität und begrenzte Interpretierbarkeit rein datengetriebener 3D-Posen zu mildern, führen wir ein physikbasiertes Bewegungs-Neuberechnungsmodul ein, das durch Euler-Lagrange-Gleichungen gesteuert wird und Gelenkbeschleunigungen durch bidirektionale zeitliche Aktualisierung berechnet. Die physikalisch vorhergesagten 3D-Posen werden dann mit datengetriebenen Posen fusioniert, wodurch mehrstufige 2D-Heatmap-Leitlinien für den Diffusionsprozess bereitgestellt werden. Evaluierungen auf drei feinkörnigen Aktionsuntergruppen aus FineGym (FX-JUMP, FX-TURN und FX-SALTO) zeigen, dass FinePhys konkurrenzfähige Baselines deutlich übertrifft. Umfassende qualitative Ergebnisse demonstrieren weiterhin die Fähigkeit von FinePhys, natürlichere und plausiblere feinkörnige menschliche Bewegungen zu generieren.
English
Despite significant advances in video generation, synthesizing physically plausible human actions remains a persistent challenge, particularly in modeling fine-grained semantics and complex temporal dynamics. For instance, generating gymnastics routines such as "switch leap with 0.5 turn" poses substantial difficulties for current methods, often yielding unsatisfactory results. To bridge this gap, we propose FinePhys, a Fine-grained human action generation framework that incorporates Physics to obtain effective skeletal guidance. Specifically, FinePhys first estimates 2D poses in an online manner and then performs 2D-to-3D dimension lifting via in-context learning. To mitigate the instability and limited interpretability of purely data-driven 3D poses, we further introduce a physics-based motion re-estimation module governed by Euler-Lagrange equations, calculating joint accelerations via bidirectional temporal updating. The physically predicted 3D poses are then fused with data-driven ones, offering multi-scale 2D heatmap guidance for the diffusion process. Evaluated on three fine-grained action subsets from FineGym (FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms competitive baselines. Comprehensive qualitative results further demonstrate FinePhys's ability to generate more natural and plausible fine-grained human actions.

Summary

AI-Generated Summary

PDF41May 20, 2025