ChatPaper.aiChatPaper

FastHMR: 디퓨전 디코딩을 통한 토큰 및 레이어 병합 기반 인간 메쉬 복원 가속화

FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

October 13, 2025
저자: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI

초록

최근 3D 인간 메쉬 복원(HMR)을 위한 트랜스포머 기반 모델들은 강력한 성능을 달성했지만, 깊은 트랜스포머 아키텍처와 불필요한 토큰으로 인해 높은 계산 비용과 복잡성을 겪는 경우가 많습니다. 본 논문에서는 HMR에 특화된 두 가지 병합 전략을 소개합니다: 오류 제한 계층 병합(ECLM)과 마스크 기반 토큰 병합(Mask-ToMe). ECLM은 평균 관절 위치 오차(MPJPE)에 미치는 영향이 최소인 트랜스포머 계층을 선택적으로 병합하며, Mask-ToMe는 최종 예측에 거의 기여하지 않는 배경 토큰을 병합하는 데 초점을 맞춥니다. 또한 병합으로 인한 성능 저하를 추가적으로 해결하기 위해, 대규모 모션 캡처 데이터셋에서 학습된 자세 사전 정보를 활용하고 시간적 맥락을 통합하는 확산 기반 디코더를 제안합니다. 여러 벤치마크에서의 실험 결과, 우리의 방법은 기준 모델 대비 성능을 약간 향상시키면서 최대 2.3배의 속도 향상을 달성함을 보여줍니다.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have achieved strong performance but often suffer from high computational cost and complexity due to deep transformer architectures and redundant tokens. In this paper, we introduce two HMR-specific merging strategies: Error-Constrained Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM selectively merges transformer layers that have minimal impact on the Mean Per Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background tokens that contribute little to the final prediction. To further address the potential performance drop caused by merging, we propose a diffusion-based decoder that incorporates temporal context and leverages pose priors learned from large-scale motion capture datasets. Experiments across multiple benchmarks demonstrate that our method achieves up to 2.3x speed-up while slightly improving performance over the baseline.
PDF112October 14, 2025