FastHMR: Versnelling van Menselijk Lichaamsherstel via Token- en Laagsamenvoeging met Diffusie-decodering
FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
October 13, 2025
Auteurs: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI
Samenvatting
Recente transformer-gebaseerde modellen voor 3D Human Mesh Recovery (HMR) hebben
sterke prestaties behaald, maar lijden vaak onder hoge rekenkosten en complexiteit
vanwege diepe transformer-architecturen en redundante tokens. In dit artikel
introduceren we twee HMR-specifieke samenvoegstrategieën: Error-Constrained
Layer Merging (ECLM) en Mask-guided Token Merging (Mask-ToMe). ECLM
voegt selectief transformer-lagen samen die een minimaal effect hebben op de Mean
Per Joint Position Error (MPJPE), terwijl Mask-ToMe zich richt op het samenvoegen
van achtergrondtokens die weinig bijdragen aan de uiteindelijke voorspelling. Om
de mogelijke prestatievermindering door samenvoeging verder aan te pakken,
stellen we een op diffusie gebaseerde decoder voor die temporele context
incorporeren en gebruikmaakt van positieprioriteiten die zijn geleerd uit grootschalige
motion capture-datasets. Experimenten over meerdere benchmarks tonen aan dat onze
methode een versnelling tot 2,3x bereikt terwijl de prestaties lichtelijk verbeteren
ten opzichte van de baseline.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have
achieved strong performance but often suffer from high computational cost and
complexity due to deep transformer architectures and redundant tokens. In this
paper, we introduce two HMR-specific merging strategies: Error-Constrained
Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM
selectively merges transformer layers that have minimal impact on the Mean Per
Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background
tokens that contribute little to the final prediction. To further address the
potential performance drop caused by merging, we propose a diffusion-based
decoder that incorporates temporal context and leverages pose priors learned
from large-scale motion capture datasets. Experiments across multiple
benchmarks demonstrate that our method achieves up to 2.3x speed-up while
slightly improving performance over the baseline.