ChatPaper.aiChatPaper

FastHMR: Accelerazione del Recupero della Mesh Umana tramite Fusione di Token e Livelli con Decodifica a Diffusione

FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

October 13, 2025
Autori: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI

Abstract

I recenti modelli basati su transformer per il recupero della mesh umana 3D (HMR) hanno ottenuto prestazioni solide, ma spesso soffrono di un elevato costo computazionale e complessità a causa di architetture transformer profonde e token ridondanti. In questo articolo, introduciamo due strategie di fusione specifiche per HMR: Error-Constrained Layer Merging (ECLM) e Mask-guided Token Merging (Mask-ToMe). L'ECLM seleziona e fonde in modo selettivo i livelli del transformer che hanno un impatto minimo sull'errore medio di posizione per giunto (MPJPE), mentre il Mask-ToMe si concentra sulla fusione dei token di sfondo che contribuiscono poco alla previsione finale. Per affrontare ulteriormente il potenziale calo delle prestazioni causato dalla fusione, proponiamo un decoder basato su diffusione che incorpora il contesto temporale e sfrutta i priori di posa appresi da ampi dataset di motion capture. Gli esperimenti su più benchmark dimostrano che il nostro metodo raggiunge un'accelerazione fino a 2,3x migliorando leggermente le prestazioni rispetto alla baseline.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have achieved strong performance but often suffer from high computational cost and complexity due to deep transformer architectures and redundant tokens. In this paper, we introduce two HMR-specific merging strategies: Error-Constrained Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM selectively merges transformer layers that have minimal impact on the Mean Per Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background tokens that contribute little to the final prediction. To further address the potential performance drop caused by merging, we propose a diffusion-based decoder that incorporates temporal context and leverages pose priors learned from large-scale motion capture datasets. Experiments across multiple benchmarks demonstrate that our method achieves up to 2.3x speed-up while slightly improving performance over the baseline.
PDF112October 14, 2025