SMPLify Aprendizável: Uma Solução Neural para Cinemática Inversa de Pose Humana sem Otimização

Resumo

Na estimativa de pose e forma humana 3D, o SMPLify permanece como uma linha de base robusta que resolve a cinemática inversa (IK) por meio de otimização iterativa. No entanto, seu alto custo computacional limita sua praticidade. Avanços recentes em diversos domínios mostraram que substituir a otimização iterativa por redes neurais baseadas em dados pode alcançar melhorias significativas no tempo de execução sem sacrificar a precisão. Motivados por essa tendência, propomos o Learnable SMPLify, uma estrutura neural que substitui o processo de ajuste iterativo do SMPLify por um modelo de regressão de passagem única. O design de nossa estrutura visa dois desafios centrais na IK neural: construção de dados e generalização. Para permitir um treinamento eficaz, propomos uma estratégia de amostragem temporal que constrói pares de inicialização e alvo a partir de quadros sequenciais. Para melhorar a generalização em diversos movimentos e poses não vistas, propomos um esquema de normalização centrado no humano e aprendizado residual para estreitar o espaço de solução. O Learnable SMPLify suporta tanto inferência sequencial quanto pós-processamento plug-in para refinar estimadores baseados em imagem existentes. Experimentos extensivos demonstram que nosso método se estabelece como uma linha de base prática e simples: ele alcança um tempo de execução quase 200 vezes mais rápido em comparação ao SMPLify, generaliza bem para 3DPW e RICH não vistos, e opera de forma agnóstica ao modelo quando usado como uma ferramenta plug-in no LucidAction. O código está disponível em https://github.com/Charrrrrlie/Learnable-SMPLify.

English

In 3D human pose and shape estimation, SMPLify remains a robust baseline that solves inverse kinematics (IK) through iterative optimization. However, its high computational cost limits its practicality. Recent advances across domains have shown that replacing iterative optimization with data-driven neural networks can achieve significant runtime improvements without sacrificing accuracy. Motivated by this trend, we propose Learnable SMPLify, a neural framework that replaces the iterative fitting process in SMPLify with a single-pass regression model. The design of our framework targets two core challenges in neural IK: data construction and generalization. To enable effective training, we propose a temporal sampling strategy that constructs initialization-target pairs from sequential frames. To improve generalization across diverse motions and unseen poses, we propose a human-centric normalization scheme and residual learning to narrow the solution space. Learnable SMPLify supports both sequential inference and plug-in post-processing to refine existing image-based estimators. Extensive experiments demonstrate that our method establishes itself as a practical and simple baseline: it achieves nearly 200x faster runtime compared to SMPLify, generalizes well to unseen 3DPW and RICH, and operates in a model-agnostic manner when used as a plug-in tool on LucidAction. The code is available at https://github.com/Charrrrrlie/Learnable-SMPLify.

SMPLify Aprendizável: Uma Solução Neural para Cinemática Inversa de Pose Humana sem Otimização

Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics

Resumo

Support