FastHMR: Acelerando a Recuperação de Malha Humana por meio de Fusão de Tokens e Camadas com Decodificação por Difusão
FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
October 13, 2025
Autores: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI
Resumo
Modelos recentes baseados em transformers para Recuperação de Malha Humana 3D (HMR) têm alcançado um desempenho robusto, mas frequentemente sofrem com alto custo computacional e complexidade devido a arquiteturas profundas de transformers e tokens redundantes. Neste artigo, introduzimos duas estratégias de fusão específicas para HMR: Fusão de Camadas com Restrição de Erro (ECLM) e Fusão de Tokens Guiada por Máscara (Mask-ToMe). O ECLM seleciona e funde camadas de transformers que têm impacto mínimo no Erro Médio de Posição por Articulação (MPJPE), enquanto o Mask-ToMe se concentra em fundir tokens de fundo que contribuem pouco para a previsão final. Para abordar ainda mais a possível queda de desempenho causada pela fusão, propomos um decodificador baseado em difusão que incorpora contexto temporal e aproveita prioridades de pose aprendidas de grandes conjuntos de dados de captura de movimento. Experimentos em vários benchmarks demonstram que nosso método alcança uma aceleração de até 2,3x enquanto melhora ligeiramente o desempenho em relação à linha de base.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have
achieved strong performance but often suffer from high computational cost and
complexity due to deep transformer architectures and redundant tokens. In this
paper, we introduce two HMR-specific merging strategies: Error-Constrained
Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM
selectively merges transformer layers that have minimal impact on the Mean Per
Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background
tokens that contribute little to the final prediction. To further address the
potential performance drop caused by merging, we propose a diffusion-based
decoder that incorporates temporal context and leverages pose priors learned
from large-scale motion capture datasets. Experiments across multiple
benchmarks demonstrate that our method achieves up to 2.3x speed-up while
slightly improving performance over the baseline.