ChatPaper.aiChatPaper

FastHMR: Acelerando a Recuperação de Malha Humana por meio de Fusão de Tokens e Camadas com Decodificação por Difusão

FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

October 13, 2025
Autores: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI

Resumo

Modelos recentes baseados em transformers para Recuperação de Malha Humana 3D (HMR) têm alcançado um desempenho robusto, mas frequentemente sofrem com alto custo computacional e complexidade devido a arquiteturas profundas de transformers e tokens redundantes. Neste artigo, introduzimos duas estratégias de fusão específicas para HMR: Fusão de Camadas com Restrição de Erro (ECLM) e Fusão de Tokens Guiada por Máscara (Mask-ToMe). O ECLM seleciona e funde camadas de transformers que têm impacto mínimo no Erro Médio de Posição por Articulação (MPJPE), enquanto o Mask-ToMe se concentra em fundir tokens de fundo que contribuem pouco para a previsão final. Para abordar ainda mais a possível queda de desempenho causada pela fusão, propomos um decodificador baseado em difusão que incorpora contexto temporal e aproveita prioridades de pose aprendidas de grandes conjuntos de dados de captura de movimento. Experimentos em vários benchmarks demonstram que nosso método alcança uma aceleração de até 2,3x enquanto melhora ligeiramente o desempenho em relação à linha de base.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have achieved strong performance but often suffer from high computational cost and complexity due to deep transformer architectures and redundant tokens. In this paper, we introduce two HMR-specific merging strategies: Error-Constrained Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM selectively merges transformer layers that have minimal impact on the Mean Per Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background tokens that contribute little to the final prediction. To further address the potential performance drop caused by merging, we propose a diffusion-based decoder that incorporates temporal context and leverages pose priors learned from large-scale motion capture datasets. Experiments across multiple benchmarks demonstrate that our method achieves up to 2.3x speed-up while slightly improving performance over the baseline.
PDF112December 11, 2025