SkillFormer: 熟練度推定のための統合型マルチビュー映像理解
SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation
May 13, 2025
著者: Edoardo Bianchi, Antonio Liotta
cs.AI
要旨
複雑な活動における人間のスキルレベルを評価することは、スポーツ、リハビリテーション、トレーニングなどの分野で応用可能な難しい課題です。本研究では、エゴセントリックおよびエクソセントリックビデオからの統一的な多視点熟練度推定のためのパラメータ効率の良いアーキテクチャであるSkillFormerを提案します。TimeSformerのバックボーンを基盤として、SkillFormerはマルチヘッドクロスアテンション、学習可能なゲーティング、および適応型自己キャリブレーションを使用して視点固有の特徴を融合するCrossViewFusionモジュールを導入します。我々はLow-Rank Adaptationを活用して、少数のパラメータのみをファインチューニングすることで、トレーニングコストを大幅に削減します。実際、EgoExo4Dデータセットで評価した結果、SkillFormerは多視点設定において最先端の精度を達成し、従来のベースラインと比較して4.5倍少ないパラメータと3.75倍少ないトレーニングエポックで顕著な計算効率を示しました。複数の構造化されたタスクで優れた性能を発揮し、きめ細かいスキル評価における多視点統合の価値を確認しました。
English
Assessing human skill levels in complex activities is a challenging problem
with applications in sports, rehabilitation, and training. In this work, we
present SkillFormer, a parameter-efficient architecture for unified multi-view
proficiency estimation from egocentric and exocentric videos. Building on the
TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that
fuses view-specific features using multi-head cross-attention, learnable
gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to
fine-tune only a small subset of parameters, significantly reducing training
costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves
state-of-the-art accuracy in multi-view settings while demonstrating remarkable
computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer
training epochs than prior baselines. It excels in multiple structured tasks,
confirming the value of multi-view integration for fine-grained skill
assessment.Summary
AI-Generated Summary