FastHMR: Beschleunigung der menschlichen Mesh-Rekonstruktion durch Token- und Layer-Zusammenführung mit Diffusionsdekodierung
FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
October 13, 2025
papers.authors: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI
papers.abstract
Aktuelle Transformer-basierte Modelle für die 3D-Human-Mesh-Rekonstruktion (HMR) haben zwar eine hohe Leistung erzielt, leiden jedoch oft unter hohen Rechenkosten und Komplexität aufgrund tiefer Transformer-Architekturen und redundanter Tokens. In dieser Arbeit führen wir zwei HMR-spezifische Verschmelzungsstrategien ein: Error-Constrained Layer Merging (ECLM) und Mask-guided Token Merging (Mask-ToMe). ECLM verschmilzt selektiv Transformer-Schichten, die einen minimalen Einfluss auf den Mean Per Joint Position Error (MPJPE) haben, während Mask-ToMe sich auf die Verschmelzung von Hintergrund-Tokens konzentriert, die wenig zum endgültigen Ergebnis beitragen. Um den potenziellen Leistungsabfall durch die Verschmelzung weiter zu adressieren, schlagen wir einen diffusionsbasierten Decoder vor, der zeitlichen Kontext einbezieht und Poseprioritäten nutzt, die aus groß angelegten Motion-Capture-Datensätzen gelernt wurden. Experimente über mehrere Benchmarks hinweg zeigen, dass unsere Methode eine bis zu 2,3-fache Beschleunigung erreicht und dabei die Leistung im Vergleich zur Baseline leicht verbessert.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have
achieved strong performance but often suffer from high computational cost and
complexity due to deep transformer architectures and redundant tokens. In this
paper, we introduce two HMR-specific merging strategies: Error-Constrained
Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM
selectively merges transformer layers that have minimal impact on the Mean Per
Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background
tokens that contribute little to the final prediction. To further address the
potential performance drop caused by merging, we propose a diffusion-based
decoder that incorporates temporal context and leverages pose priors learned
from large-scale motion capture datasets. Experiments across multiple
benchmarks demonstrate that our method achieves up to 2.3x speed-up while
slightly improving performance over the baseline.