FastHMR: Aceleración de la Recuperación de Mallas Humanas mediante Fusión de Tokens y Capas con Decodificación de Difusión
FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
October 13, 2025
Autores: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI
Resumen
Los modelos recientes basados en transformadores para la Recuperación de Mallas Humanas 3D (HMR, por sus siglas en inglés) han logrado un rendimiento sólido, pero a menudo presentan un alto costo computacional y complejidad debido a arquitecturas profundas de transformadores y tokens redundantes. En este artículo, presentamos dos estrategias de fusión específicas para HMR: Fusión de Capas con Restricción de Error (ECLM) y Fusión de Tokens Guiada por Máscara (Mask-ToMe). ECLM fusiona selectivamente capas de transformadores que tienen un impacto mínimo en el Error de Posición Promedio por Articulación (MPJPE), mientras que Mask-ToMe se centra en fusionar tokens de fondo que contribuyen poco a la predicción final. Para abordar además la posible caída en el rendimiento causada por la fusión, proponemos un decodificador basado en difusión que incorpora contexto temporal y aprovecha los conocimientos previos de postura aprendidos de grandes conjuntos de datos de captura de movimiento. Los experimentos en múltiples benchmarks demuestran que nuestro método logra una aceleración de hasta 2.3x mientras mejora ligeramente el rendimiento en comparación con la línea base.
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have
achieved strong performance but often suffer from high computational cost and
complexity due to deep transformer architectures and redundant tokens. In this
paper, we introduce two HMR-specific merging strategies: Error-Constrained
Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM
selectively merges transformer layers that have minimal impact on the Mean Per
Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background
tokens that contribute little to the final prediction. To further address the
potential performance drop caused by merging, we propose a diffusion-based
decoder that incorporates temporal context and leverages pose priors learned
from large-scale motion capture datasets. Experiments across multiple
benchmarks demonstrate that our method achieves up to 2.3x speed-up while
slightly improving performance over the baseline.