ChatPaper.aiChatPaper

FastHMR: Ускоренное восстановление человеческого меша за счет слияния токенов и слоев с декодированием на основе диффузии

FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

October 13, 2025
Авторы: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI

Аннотация

Недавние трансформаторные модели для восстановления трехмерной сетки человеческого тела (3D Human Mesh Recovery, HMR) достигли высоких результатов, но часто страдают от высокой вычислительной сложности и избыточности из-за глубоких архитектур трансформаторов и излишних токенов. В данной статье мы представляем две стратегии объединения, специфичные для HMR: объединение слоев с ограничением по ошибке (Error-Constrained Layer Merging, ECLM) и объединение токенов на основе маски (Mask-guided Token Merging, Mask-ToMe). ECLM выборочно объединяет слои трансформаторов, которые оказывают минимальное влияние на среднюю ошибку положения суставов (Mean Per Joint Position Error, MPJPE), в то время как Mask-ToMe фокусируется на объединении фоновых токенов, которые мало влияют на итоговый прогноз. Для дальнейшего устранения возможного снижения производительности, вызванного объединением, мы предлагаем диффузионный декодер, который учитывает временной контекст и использует априорные знания о позах, полученные из крупномасштабных наборов данных захвата движения. Эксперименты на нескольких бенчмарках показывают, что наш метод обеспечивает ускорение до 2,3 раза при незначительном улучшении производительности по сравнению с базовым подходом.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have achieved strong performance but often suffer from high computational cost and complexity due to deep transformer architectures and redundant tokens. In this paper, we introduce two HMR-specific merging strategies: Error-Constrained Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM selectively merges transformer layers that have minimal impact on the Mean Per Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background tokens that contribute little to the final prediction. To further address the potential performance drop caused by merging, we propose a diffusion-based decoder that incorporates temporal context and leverages pose priors learned from large-scale motion capture datasets. Experiments across multiple benchmarks demonstrate that our method achieves up to 2.3x speed-up while slightly improving performance over the baseline.
PDF112October 14, 2025