학습 가능한 SMPLify: 최적화 없이 인간 자세 역기구학을 위한 신경망 솔루션
Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics
August 19, 2025
저자: Yuchen Yang, Linfeng Dong, Wei Wang, Zhihang Zhong, Xiao Sun
cs.AI
초록
3D 인간 자세 및 형태 추정 분야에서 SMPLify는 반복적 최적화를 통해 역운동학(IK) 문제를 해결하는 견고한 기준선으로 남아 있습니다. 그러나 높은 계산 비용으로 인해 실용성이 제한됩니다. 최근 여러 분야에서의 발전은 반복적 최적화를 데이터 기반 신경망으로 대체함으로써 정확도를 희생하지 않고도 상당한 런타임 개선을 달성할 수 있음을 보여주었습니다. 이러한 추세에 영감을 받아, 우리는 SMPLify의 반복적 피팅 프로세스를 단일 패스 회귀 모델로 대체하는 신경망 프레임워크인 Learnable SMPLify를 제안합니다. 우리 프레임워크의 설계는 신경망 IK에서의 두 가지 핵심 과제인 데이터 구성과 일반화를 목표로 합니다. 효과적인 학습을 위해, 우리는 순차적 프레임에서 초기화-대상 쌍을 구성하는 시간적 샘플링 전략을 제안합니다. 다양한 동작과 보지 못한 자세에 대한 일반화를 개선하기 위해, 우리는 인간 중심의 정규화 기법과 잔차 학습을 제안하여 해 공간을 좁힙니다. Learnable SMPLify는 순차적 추론과 플러그인 후처리를 모두 지원하여 기존의 이미지 기반 추정기를 개선합니다. 광범위한 실험을 통해 우리의 방법이 실용적이고 간단한 기준선으로 자리 잡았음을 입증합니다: SMPLify에 비해 거의 200배 빠른 런타임을 달성하고, 보지 못한 3DPW 및 RICH 데이터셋에 잘 일반화되며, LucidAction에서 플러그인 도구로 사용될 때 모델-불가지론적 방식으로 작동합니다. 코드는 https://github.com/Charrrrrlie/Learnable-SMPLify에서 확인할 수 있습니다.
English
In 3D human pose and shape estimation, SMPLify remains a robust baseline that
solves inverse kinematics (IK) through iterative optimization. However, its
high computational cost limits its practicality. Recent advances across domains
have shown that replacing iterative optimization with data-driven neural
networks can achieve significant runtime improvements without sacrificing
accuracy. Motivated by this trend, we propose Learnable SMPLify, a neural
framework that replaces the iterative fitting process in SMPLify with a
single-pass regression model. The design of our framework targets two core
challenges in neural IK: data construction and generalization. To enable
effective training, we propose a temporal sampling strategy that constructs
initialization-target pairs from sequential frames. To improve generalization
across diverse motions and unseen poses, we propose a human-centric
normalization scheme and residual learning to narrow the solution space.
Learnable SMPLify supports both sequential inference and plug-in
post-processing to refine existing image-based estimators. Extensive
experiments demonstrate that our method establishes itself as a practical and
simple baseline: it achieves nearly 200x faster runtime compared to SMPLify,
generalizes well to unseen 3DPW and RICH, and operates in a model-agnostic
manner when used as a plug-in tool on LucidAction. The code is available at
https://github.com/Charrrrrlie/Learnable-SMPLify.