ChatPaper.aiChatPaper

FinePhys: Генерация детализированных действий человека с явным учетом физических законов для эффективного управления скелетной структурой

FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

May 19, 2025
Авторы: Dian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang
cs.AI

Аннотация

Несмотря на значительные достижения в области генерации видео, синтез физически правдоподобных человеческих действий остается сложной задачей, особенно в моделировании тонкой семантики и сложной временной динамики. Например, генерация гимнастических элементов, таких как "перескок с поворотом на 0.5 оборота", представляет существенные трудности для современных методов, часто приводя к неудовлетворительным результатам. Для преодоления этого разрыва мы предлагаем FinePhys — фреймворк для генерации тонких человеческих действий, который интегрирует физику для получения эффективного скелетного руководства. В частности, FinePhys сначала оценивает 2D позы в режиме реального времени, а затем выполняет преобразование из 2D в 3D с помощью обучения в контексте. Чтобы устранить нестабильность и ограниченную интерпретируемость чисто данных 3D поз, мы дополнительно вводим модуль переоценки движения на основе физики, управляемый уравнениями Эйлера-Лагранжа, который вычисляет ускорения суставов с помощью двунаправленного временного обновления. Физически предсказанные 3D позы затем объединяются с данными, полученными на основе данных, предоставляя многоуровневое руководство по 2D тепловым картам для процесса диффузии. Оценка на трех наборах тонких действий из FineGym (FX-JUMP, FX-TURN и FX-SALTO) показывает, что FinePhys значительно превосходит конкурентоспособные базовые методы. Комплексные качественные результаты дополнительно демонстрируют способность FinePhys генерировать более естественные и правдоподобные тонкие человеческие действия.
English
Despite significant advances in video generation, synthesizing physically plausible human actions remains a persistent challenge, particularly in modeling fine-grained semantics and complex temporal dynamics. For instance, generating gymnastics routines such as "switch leap with 0.5 turn" poses substantial difficulties for current methods, often yielding unsatisfactory results. To bridge this gap, we propose FinePhys, a Fine-grained human action generation framework that incorporates Physics to obtain effective skeletal guidance. Specifically, FinePhys first estimates 2D poses in an online manner and then performs 2D-to-3D dimension lifting via in-context learning. To mitigate the instability and limited interpretability of purely data-driven 3D poses, we further introduce a physics-based motion re-estimation module governed by Euler-Lagrange equations, calculating joint accelerations via bidirectional temporal updating. The physically predicted 3D poses are then fused with data-driven ones, offering multi-scale 2D heatmap guidance for the diffusion process. Evaluated on three fine-grained action subsets from FineGym (FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms competitive baselines. Comprehensive qualitative results further demonstrate FinePhys's ability to generate more natural and plausible fine-grained human actions.
PDF51May 20, 2025