SMPLify Apprendibile: Una Soluzione Neurale per la Cinematica Inversa della Postura Umana Senza Ottimizzazione
Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics
August 19, 2025
Autori: Yuchen Yang, Linfeng Dong, Wei Wang, Zhihang Zhong, Xiao Sun
cs.AI
Abstract
Nella stima della posa e della forma umana in 3D, SMPLify rimane un solido punto di riferimento che risolve la cinematica inversa (IK) attraverso un'ottimizzazione iterativa. Tuttavia, il suo elevato costo computazionale ne limita l'utilizzo pratico. Recenti progressi in vari ambiti hanno dimostrato che sostituire l'ottimizzazione iterativa con reti neurali guidate dai dati può portare a significativi miglioramenti nei tempi di esecuzione senza compromettere l'accuratezza. Seguendo questa tendenza, proponiamo Learnable SMPLify, un framework neurale che sostituisce il processo di adattamento iterativo di SMPLify con un modello di regressione a singolo passaggio. Il design del nostro framework affronta due sfide fondamentali nella IK neurale: la costruzione dei dati e la generalizzazione. Per abilitare un addestramento efficace, proponiamo una strategia di campionamento temporale che costruisce coppie di inizializzazione-obiettivo da frame sequenziali. Per migliorare la generalizzazione su movimenti diversi e pose non viste, proponiamo uno schema di normalizzazione centrato sull'umano e l'apprendimento residuo per ridurre lo spazio delle soluzioni. Learnable SMPLify supporta sia l'inferenza sequenziale che il post-processing plug-in per affinare gli stimatori basati su immagini esistenti. Esperimenti estensivi dimostrano che il nostro metodo si afferma come un punto di riferimento pratico e semplice: raggiunge un tempo di esecuzione quasi 200 volte più veloce rispetto a SMPLify, generalizza bene su 3DPW e RICH non visti, e opera in modo agnostico rispetto al modello quando utilizzato come strumento plug-in su LucidAction. Il codice è disponibile all'indirizzo https://github.com/Charrrrrlie/Learnable-SMPLify.
English
In 3D human pose and shape estimation, SMPLify remains a robust baseline that
solves inverse kinematics (IK) through iterative optimization. However, its
high computational cost limits its practicality. Recent advances across domains
have shown that replacing iterative optimization with data-driven neural
networks can achieve significant runtime improvements without sacrificing
accuracy. Motivated by this trend, we propose Learnable SMPLify, a neural
framework that replaces the iterative fitting process in SMPLify with a
single-pass regression model. The design of our framework targets two core
challenges in neural IK: data construction and generalization. To enable
effective training, we propose a temporal sampling strategy that constructs
initialization-target pairs from sequential frames. To improve generalization
across diverse motions and unseen poses, we propose a human-centric
normalization scheme and residual learning to narrow the solution space.
Learnable SMPLify supports both sequential inference and plug-in
post-processing to refine existing image-based estimators. Extensive
experiments demonstrate that our method establishes itself as a practical and
simple baseline: it achieves nearly 200x faster runtime compared to SMPLify,
generalizes well to unseen 3DPW and RICH, and operates in a model-agnostic
manner when used as a plug-in tool on LucidAction. The code is available at
https://github.com/Charrrrrlie/Learnable-SMPLify.