ChatPaper.aiChatPaper

FastHMR: Versnelling van Menselijk Lichaamsherstel via Token- en Laagsamenvoeging met Diffusie-decodering

FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

October 13, 2025
Auteurs: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI

Samenvatting

Recente transformer-gebaseerde modellen voor 3D Human Mesh Recovery (HMR) hebben sterke prestaties behaald, maar lijden vaak onder hoge rekenkosten en complexiteit vanwege diepe transformer-architecturen en redundante tokens. In dit artikel introduceren we twee HMR-specifieke samenvoegstrategieën: Error-Constrained Layer Merging (ECLM) en Mask-guided Token Merging (Mask-ToMe). ECLM voegt selectief transformer-lagen samen die een minimaal effect hebben op de Mean Per Joint Position Error (MPJPE), terwijl Mask-ToMe zich richt op het samenvoegen van achtergrondtokens die weinig bijdragen aan de uiteindelijke voorspelling. Om de mogelijke prestatievermindering door samenvoeging verder aan te pakken, stellen we een op diffusie gebaseerde decoder voor die temporele context incorporeren en gebruikmaakt van positieprioriteiten die zijn geleerd uit grootschalige motion capture-datasets. Experimenten over meerdere benchmarks tonen aan dat onze methode een versnelling tot 2,3x bereikt terwijl de prestaties lichtelijk verbeteren ten opzichte van de baseline.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have achieved strong performance but often suffer from high computational cost and complexity due to deep transformer architectures and redundant tokens. In this paper, we introduce two HMR-specific merging strategies: Error-Constrained Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM selectively merges transformer layers that have minimal impact on the Mean Per Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background tokens that contribute little to the final prediction. To further address the potential performance drop caused by merging, we propose a diffusion-based decoder that incorporates temporal context and leverages pose priors learned from large-scale motion capture datasets. Experiments across multiple benchmarks demonstrate that our method achieves up to 2.3x speed-up while slightly improving performance over the baseline.
PDF112October 14, 2025