SkillFormer: Comprensione Unificata di Video Multi-Vista per la Stima delle Competenze
SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation
May 13, 2025
Autori: Edoardo Bianchi, Antonio Liotta
cs.AI
Abstract
Valutare i livelli di abilità umana in attività complesse è un problema impegnativo con applicazioni nello sport, nella riabilitazione e nella formazione. In questo lavoro, presentiamo SkillFormer, un'architettura efficiente in termini di parametri per la stima unificata della competenza multi-vista da video egocentrici ed exocentrici. Basandosi sull'architettura TimeSformer, SkillFormer introduce un modulo CrossViewFusion che fonde le caratteristiche specifiche di ciascuna vista utilizzando l'attenzione incrociata multi-testina, un meccanismo di gating apprendibile e una calibrazione automatica adattiva. Sfruttiamo l'Adattamento a Basso Rango per ottimizzare solo un piccolo sottoinsieme di parametri, riducendo significativamente i costi di addestramento. Infatti, quando valutato sul dataset EgoExo4D, SkillFormer raggiunge un'accuratezza all'avanguardia in contesti multi-vista, dimostrando al contempo una notevole efficienza computazionale, utilizzando 4,5 volte meno parametri e richiedendo 3,75 volte meno epoche di addestramento rispetto ai precedenti modelli di riferimento. Eccelle in molteplici attività strutturate, confermando il valore dell'integrazione multi-vista per una valutazione fine delle abilità.
English
Assessing human skill levels in complex activities is a challenging problem
with applications in sports, rehabilitation, and training. In this work, we
present SkillFormer, a parameter-efficient architecture for unified multi-view
proficiency estimation from egocentric and exocentric videos. Building on the
TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that
fuses view-specific features using multi-head cross-attention, learnable
gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to
fine-tune only a small subset of parameters, significantly reducing training
costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves
state-of-the-art accuracy in multi-view settings while demonstrating remarkable
computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer
training epochs than prior baselines. It excels in multiple structured tasks,
confirming the value of multi-view integration for fine-grained skill
assessment.