FastHMR: Aceleración de la Recuperación de Mallas Humanas mediante Fusión de Tokens y Capas con Decodificación de Difusión

Resumen

Los modelos recientes basados en transformadores para la Recuperación de Mallas Humanas 3D (HMR, por sus siglas en inglés) han logrado un rendimiento sólido, pero a menudo presentan un alto costo computacional y complejidad debido a arquitecturas profundas de transformadores y tokens redundantes. En este artículo, presentamos dos estrategias de fusión específicas para HMR: Fusión de Capas con Restricción de Error (ECLM) y Fusión de Tokens Guiada por Máscara (Mask-ToMe). ECLM fusiona selectivamente capas de transformadores que tienen un impacto mínimo en el Error de Posición Promedio por Articulación (MPJPE), mientras que Mask-ToMe se centra en fusionar tokens de fondo que contribuyen poco a la predicción final. Para abordar además la posible caída en el rendimiento causada por la fusión, proponemos un decodificador basado en difusión que incorpora contexto temporal y aprovecha los conocimientos previos de postura aprendidos de grandes conjuntos de datos de captura de movimiento. Los experimentos en múltiples benchmarks demuestran que nuestro método logra una aceleración de hasta 2.3x mientras mejora ligeramente el rendimiento en comparación con la línea base.

English

Recent transformer-based models for 3D Human Mesh Recovery (HMR) have achieved strong performance but often suffer from high computational cost and complexity due to deep transformer architectures and redundant tokens. In this paper, we introduce two HMR-specific merging strategies: Error-Constrained Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM selectively merges transformer layers that have minimal impact on the Mean Per Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background tokens that contribute little to the final prediction. To further address the potential performance drop caused by merging, we propose a diffusion-based decoder that incorporates temporal context and leverages pose priors learned from large-scale motion capture datasets. Experiments across multiple benchmarks demonstrate that our method achieves up to 2.3x speed-up while slightly improving performance over the baseline.