FinePhys: Fijnmazige menselijke actiegeneratie door expliciete integratie van fysische wetten voor effectieve skeletbegeleiding

Samenvatting

Ondanks aanzienlijke vooruitgang in videogeneratie blijft het synthetiseren van fysiek plausibele menselijke acties een hardnekkige uitdaging, met name bij het modelleren van fijnmazige semantiek en complexe temporele dynamiek. Het genereren van gymnastiekoefeningen zoals een "switch leap met 0.5 draai" vormt bijvoorbeeld aanzienlijke moeilijkheden voor huidige methoden, wat vaak tot onbevredigende resultaten leidt. Om deze kloof te overbruggen, stellen we FinePhys voor, een fijnmazig raamwerk voor het genereren van menselijke acties dat fysica integreert om effectieve skeletbegeleiding te verkrijgen. Specifiek schat FinePhys eerst 2D-posities op een online manier in en voert vervolgens een 2D-naar-3D dimensieverhoging uit via in-context leren. Om de instabiliteit en beperkte interpreteerbaarheid van puur data-gedreven 3D-posities te verminderen, introduceren we verder een op fysica gebaseerde bewegingherschattingsmodule die wordt bestuurd door Euler-Lagrange-vergelijkingen, waarbij gewrichtsversnellingen worden berekend via bidirectionele temporele updating. De fysiek voorspelde 3D-posities worden vervolgens gefuseerd met data-gedreven posities, wat multi-schaal 2D heatmap-begeleiding biedt voor het diffusieproces. Geëvalueerd op drie fijnmazige actiesubsets van FineGym (FX-JUMP, FX-TURN en FX-SALTO), presteert FinePhys aanzienlijk beter dan concurrerende baselines. Uitgebreide kwalitatieve resultaten tonen verder aan dat FinePhys in staat is om natuurlijkere en plausibelere fijnmazige menselijke acties te genereren.

English

Despite significant advances in video generation, synthesizing physically plausible human actions remains a persistent challenge, particularly in modeling fine-grained semantics and complex temporal dynamics. For instance, generating gymnastics routines such as "switch leap with 0.5 turn" poses substantial difficulties for current methods, often yielding unsatisfactory results. To bridge this gap, we propose FinePhys, a Fine-grained human action generation framework that incorporates Physics to obtain effective skeletal guidance. Specifically, FinePhys first estimates 2D poses in an online manner and then performs 2D-to-3D dimension lifting via in-context learning. To mitigate the instability and limited interpretability of purely data-driven 3D poses, we further introduce a physics-based motion re-estimation module governed by Euler-Lagrange equations, calculating joint accelerations via bidirectional temporal updating. The physically predicted 3D poses are then fused with data-driven ones, offering multi-scale 2D heatmap guidance for the diffusion process. Evaluated on three fine-grained action subsets from FineGym (FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms competitive baselines. Comprehensive qualitative results further demonstrate FinePhys's ability to generate more natural and plausible fine-grained human actions.

FinePhys: Fijnmazige menselijke actiegeneratie door expliciete integratie van fysische wetten voor effectieve skeletbegeleiding

FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

Samenvatting

Summary

Support

Support