FastHMR : Accélération de la reconstruction de maillage humain via fusion de tokens et de couches avec décodage par diffusion
FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
October 13, 2025
papers.authors: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI
papers.abstract
Les modèles récents basés sur des transformateurs pour la reconstruction de maillage humain 3D (HMR) ont obtenu des performances solides, mais souffrent souvent d'un coût de calcul élevé et d'une complexité accrue en raison d'architectures profondes de transformateurs et de tokens redondants. Dans cet article, nous introduisons deux stratégies de fusion spécifiques à l'HMR : la fusion de couches sous contrainte d'erreur (Error-Constrained Layer Merging, ECLM) et la fusion de tokens guidée par masque (Mask-guided Token Merging, Mask-ToMe). L'ECLM fusionne sélectivement les couches de transformateurs qui ont un impact minimal sur l'erreur moyenne de position par articulation (Mean Per Joint Position Error, MPJPE), tandis que Mask-ToMe se concentre sur la fusion des tokens de fond qui contribuent peu à la prédiction finale. Pour atténuer la baisse potentielle de performance causée par la fusion, nous proposons un décodeur basé sur la diffusion qui intègre un contexte temporel et exploite des a priori de pose appris à partir de vastes ensembles de données de capture de mouvement. Les expériences menées sur plusieurs benchmarks montrent que notre méthode atteint une accélération allant jusqu'à 2,3x tout en améliorant légèrement les performances par rapport à la référence.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have
achieved strong performance but often suffer from high computational cost and
complexity due to deep transformer architectures and redundant tokens. In this
paper, we introduce two HMR-specific merging strategies: Error-Constrained
Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM
selectively merges transformer layers that have minimal impact on the Mean Per
Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background
tokens that contribute little to the final prediction. To further address the
potential performance drop caused by merging, we propose a diffusion-based
decoder that incorporates temporal context and leverages pose priors learned
from large-scale motion capture datasets. Experiments across multiple
benchmarks demonstrate that our method achieves up to 2.3x speed-up while
slightly improving performance over the baseline.