ChatPaper.aiChatPaper

SkillFormer: 숙련도 추정을 위한 통합 다중 뷰 비디오 이해

SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

May 13, 2025
저자: Edoardo Bianchi, Antonio Liotta
cs.AI

초록

복잡한 활동에서 인간의 기술 수준을 평가하는 것은 스포츠, 재활, 훈련 등 다양한 분야에 응용 가능한 도전적인 문제입니다. 본 연구에서는 자기 중심적(egocentric) 및 타자 중심적(exocentric) 비디오로부터 통합된 다중 시점 숙련도 추정을 위한 파라미터 효율적 아키텍처인 SkillFormer를 제안합니다. SkillFormer는 TimeSformer 백본을 기반으로 하며, 다중 헤드 교차 주의(multi-head cross-attention), 학습 가능한 게이팅(learnable gating), 그리고 적응형 자체 보정(adaptive self-calibration)을 통해 시점별 특성을 융합하는 CrossViewFusion 모듈을 도입했습니다. 또한, Low-Rank Adaptation을 활용하여 소수의 파라미터만 미세 조정함으로써 학습 비용을 크게 절감했습니다. 실제로 EgoExo4D 데이터셋에서 평가한 결과, SkillFormer는 다중 시점 설정에서 최첨단 정확도를 달성하면서도 놀라운 계산 효율성을 보였으며, 기존 베이스라인 대비 4.5배 적은 파라미터를 사용하고 3.75배 적은 학습 에폭을 요구했습니다. 이 아키텍처는 여러 구조화된 작업에서 우수한 성능을 보이며, 세밀한 기술 평가를 위한 다중 시점 통합의 가치를 확인했습니다.
English
Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.

Summary

AI-Generated Summary

PDF32May 14, 2025