FastHMR: トークンおよびレイヤーマージと拡散デコーディングによる人間メッシュ回復の高速化
FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
October 13, 2025
著者: Soroush Mehraban, Andrea Iaboni, Babak Taati
cs.AI
要旨
近年の3Dヒューマンメッシュリカバリ(HMR)におけるトランスフォーマーベースのモデルは、高い性能を達成しているものの、深いトランスフォーマーアーキテクチャと冗長なトークンにより、高い計算コストと複雑さに悩まされることが多い。本論文では、HMRに特化した2つのマージ戦略を提案する:エラー制約付きレイヤーマージ(ECLM)とマスク誘導型トークンマージ(Mask-ToMe)である。ECLMは、平均関節位置誤差(MPJPE)に最小限の影響しか与えないトランスフォーマーレイヤーを選択的にマージし、Mask-ToMeは、最終予測にほとんど寄与しない背景トークンに焦点を当ててマージを行う。さらに、マージによる性能低下を補うため、時間的文脈を組み込み、大規模なモーションキャプチャデータセットから学習した姿勢の事前知識を活用する拡散ベースのデコーダを提案する。複数のベンチマークでの実験により、本手法がベースラインと比較して性能をわずかに向上させつつ、最大2.3倍の高速化を達成することが示された。
English
Recent transformer-based models for 3D Human Mesh Recovery (HMR) have
achieved strong performance but often suffer from high computational cost and
complexity due to deep transformer architectures and redundant tokens. In this
paper, we introduce two HMR-specific merging strategies: Error-Constrained
Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM
selectively merges transformer layers that have minimal impact on the Mean Per
Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background
tokens that contribute little to the final prediction. To further address the
potential performance drop caused by merging, we propose a diffusion-based
decoder that incorporates temporal context and leverages pose priors learned
from large-scale motion capture datasets. Experiments across multiple
benchmarks demonstrate that our method achieves up to 2.3x speed-up while
slightly improving performance over the baseline.