SkillFormer: Geïntegreerd Multi-View Video Begrip voor Vaardigheidsinschatting
SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation
May 13, 2025
Auteurs: Edoardo Bianchi, Antonio Liotta
cs.AI
Samenvatting
Het beoordelen van menselijke vaardigheidsniveaus in complexe activiteiten is een uitdagend probleem met toepassingen in sport, revalidatie en training. In dit werk presenteren we SkillFormer, een parameter-efficiënte architectuur voor uniforme multi-view vaardigheidsinschatting vanuit egocentrische en exocentrische video's. Gebaseerd op de TimeSformer-backbone introduceert SkillFormer een CrossViewFusion-module die viewspecifieke kenmerken combineert met behulp van multi-head cross-attention, leerbare gating en adaptieve zelfkalibratie. We maken gebruik van Low-Rank Adaptation om slechts een kleine subset van parameters te finetunen, waardoor de trainingskosten aanzienlijk worden verlaagd. In feite behaalt SkillFormer, wanneer geëvalueerd op de EgoExo4D-dataset, state-of-the-art nauwkeurigheid in multi-view instellingen, terwijl het opmerkelijke computationele efficiëntie demonstreert, met 4,5x minder parameters en 3,75x minder trainingsepochs dan eerdere baselines. Het presteert uitstekend in meerdere gestructureerde taken, wat de waarde van multi-view integratie voor gedetailleerde vaardigheidsbeoordeling bevestigt.
English
Assessing human skill levels in complex activities is a challenging problem
with applications in sports, rehabilitation, and training. In this work, we
present SkillFormer, a parameter-efficient architecture for unified multi-view
proficiency estimation from egocentric and exocentric videos. Building on the
TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that
fuses view-specific features using multi-head cross-attention, learnable
gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to
fine-tune only a small subset of parameters, significantly reducing training
costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves
state-of-the-art accuracy in multi-view settings while demonstrating remarkable
computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer
training epochs than prior baselines. It excels in multiple structured tasks,
confirming the value of multi-view integration for fine-grained skill
assessment.Summary
AI-Generated Summary