FinePhys: 効果的な骨格ガイダンスのための物理法則を明示的に組み込んだ細粒度人間行動生成
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance
May 19, 2025
著者: Dian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang
cs.AI
要旨
ビデオ生成における大きな進展にもかかわらず、物理的に妥当な人間の動作を合成することは依然として持続的な課題であり、特に細粒度のセマンティクスと複雑な時間的ダイナミクスのモデリングにおいて顕著です。例えば、「0.5回転のスイッチリープ」のような体操のルーティンを生成することは、現在の手法にとって大きな困難を伴い、しばしば不満足な結果をもたらします。このギャップを埋めるために、我々はFinePhysを提案します。これは、効果的な骨格ガイダンスを得るために物理学を組み込んだ細粒度の人間動作生成フレームワークです。具体的には、FinePhysはまずオンライン方式で2Dポーズを推定し、その後、コンテキスト内学習を通じて2Dから3Dへの次元リフティングを行います。純粋にデータ駆動型の3Dポーズの不安定性と解釈可能性の限界を緩和するために、我々はさらにオイラー・ラグランジュ方程式に基づく物理ベースのモーション再推定モジュールを導入し、双方向の時間的更新を通じて関節加速度を計算します。物理的に予測された3Dポーズは、データ駆動型のポーズと融合され、拡散プロセスに対するマルチスケールの2Dヒートマップガイダンスを提供します。FineGymの3つの細粒度動作サブセット(FX-JUMP、FX-TURN、FX-SALTO)で評価された結果、FinePhysは競合するベースラインを大幅に上回りました。包括的な定性的結果は、FinePhysがより自然で妥当な細粒度の人間動作を生成する能力をさらに実証しています。
English
Despite significant advances in video generation, synthesizing physically
plausible human actions remains a persistent challenge, particularly in
modeling fine-grained semantics and complex temporal dynamics. For instance,
generating gymnastics routines such as "switch leap with 0.5 turn" poses
substantial difficulties for current methods, often yielding unsatisfactory
results. To bridge this gap, we propose FinePhys, a Fine-grained human action
generation framework that incorporates Physics to obtain effective skeletal
guidance. Specifically, FinePhys first estimates 2D poses in an online manner
and then performs 2D-to-3D dimension lifting via in-context learning. To
mitigate the instability and limited interpretability of purely data-driven 3D
poses, we further introduce a physics-based motion re-estimation module
governed by Euler-Lagrange equations, calculating joint accelerations via
bidirectional temporal updating. The physically predicted 3D poses are then
fused with data-driven ones, offering multi-scale 2D heatmap guidance for the
diffusion process. Evaluated on three fine-grained action subsets from FineGym
(FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms
competitive baselines. Comprehensive qualitative results further demonstrate
FinePhys's ability to generate more natural and plausible fine-grained human
actions.Summary
AI-Generated Summary