ChatPaper.aiChatPaper

SkillFormer: Comprensione Unificata di Video Multi-Vista per la Stima delle Competenze

SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

May 13, 2025
Autori: Edoardo Bianchi, Antonio Liotta
cs.AI

Abstract

Valutare i livelli di abilità umana in attività complesse è un problema impegnativo con applicazioni nello sport, nella riabilitazione e nella formazione. In questo lavoro, presentiamo SkillFormer, un'architettura efficiente in termini di parametri per la stima unificata della competenza multi-vista da video egocentrici ed exocentrici. Basandosi sull'architettura TimeSformer, SkillFormer introduce un modulo CrossViewFusion che fonde le caratteristiche specifiche di ciascuna vista utilizzando l'attenzione incrociata multi-testina, un meccanismo di gating apprendibile e una calibrazione automatica adattiva. Sfruttiamo l'Adattamento a Basso Rango per ottimizzare solo un piccolo sottoinsieme di parametri, riducendo significativamente i costi di addestramento. Infatti, quando valutato sul dataset EgoExo4D, SkillFormer raggiunge un'accuratezza all'avanguardia in contesti multi-vista, dimostrando al contempo una notevole efficienza computazionale, utilizzando 4,5 volte meno parametri e richiedendo 3,75 volte meno epoche di addestramento rispetto ai precedenti modelli di riferimento. Eccelle in molteplici attività strutturate, confermando il valore dell'integrazione multi-vista per una valutazione fine delle abilità.
English
Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.
PDF52May 14, 2025