ChatPaper.aiChatPaper

FinePhys: 물리 법칙을 명시적으로 통합하여 효과적인 골격 안내를 위한 세분화된 인간 행동 생성

FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

May 19, 2025
저자: Dian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang
cs.AI

초록

비디오 생성 분야에서의 상당한 발전에도 불구하고, 물리적으로 타당한 인간 동작을 합성하는 것은 여전히 지속적인 과제로 남아 있으며, 특히 세밀한 의미론과 복잡한 시간적 역학을 모델링하는 데 있어서 더욱 그러하다. 예를 들어, "0.5회전 스위치 리프"와 같은 체조 동작을 생성하는 것은 현재의 방법들로는 상당한 어려움을 겪으며, 종종 만족스럽지 못한 결과를 초래한다. 이러한 격차를 해소하기 위해, 우리는 물리학을 통합하여 효과적인 골격 안내를 제공하는 세밀한 인간 동작 생성 프레임워크인 FinePhys를 제안한다. 구체적으로, FinePhys는 먼저 온라인 방식으로 2D 포즈를 추정한 다음, 컨텍스트 학습을 통해 2D에서 3D로 차원을 확장한다. 순수 데이터 기반 3D 포즈의 불안정성과 제한된 해석 가능성을 완화하기 위해, 우리는 오일러-라그랑주 방정식에 의해 제어되는 물리 기반 동작 재추정 모듈을 추가로 도입하여, 양방향 시간적 업데이트를 통해 관절 가속도를 계산한다. 물리적으로 예측된 3D 포즈는 데이터 기반 포즈와 융합되어, 확산 과정을 위한 다중 스케일 2D 히트맵 안내를 제공한다. FineGym의 세 가지 세밀한 동작 하위 집합(FX-JUMP, FX-TURN, FX-SALTO)에서 평가된 FinePhys는 경쟁적인 베이스라인을 크게 능가한다. 포괄적인 질적 결과는 FinePhys가 더 자연스럽고 타당한 세밀한 인간 동작을 생성할 수 있는 능력을 추가로 입증한다.
English
Despite significant advances in video generation, synthesizing physically plausible human actions remains a persistent challenge, particularly in modeling fine-grained semantics and complex temporal dynamics. For instance, generating gymnastics routines such as "switch leap with 0.5 turn" poses substantial difficulties for current methods, often yielding unsatisfactory results. To bridge this gap, we propose FinePhys, a Fine-grained human action generation framework that incorporates Physics to obtain effective skeletal guidance. Specifically, FinePhys first estimates 2D poses in an online manner and then performs 2D-to-3D dimension lifting via in-context learning. To mitigate the instability and limited interpretability of purely data-driven 3D poses, we further introduce a physics-based motion re-estimation module governed by Euler-Lagrange equations, calculating joint accelerations via bidirectional temporal updating. The physically predicted 3D poses are then fused with data-driven ones, offering multi-scale 2D heatmap guidance for the diffusion process. Evaluated on three fine-grained action subsets from FineGym (FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms competitive baselines. Comprehensive qualitative results further demonstrate FinePhys's ability to generate more natural and plausible fine-grained human actions.

Summary

AI-Generated Summary

PDF41May 20, 2025