PATS: Campionamento Temporale Consapevole della Competenza per la Valutazione delle Abilità Sportive Multi-Vista
PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment
June 5, 2025
Autori: Edoardo Bianchi, Antonio Liotta
cs.AI
Abstract
La valutazione automatizzata delle abilità sportive richiede la cattura di schemi di movimento fondamentali che distinguono le prestazioni degli esperti da quelle dei principianti, tuttavia i metodi attuali di campionamento video interrompono la continuità temporale essenziale per la valutazione della competenza. A tal fine, introduciamo il Proficiency-Aware Temporal Sampling (PATS), una nuova strategia di campionamento che preserva i movimenti fondamentali completi all'interno di segmenti temporali continui per la valutazione delle abilità multi-vista. PATS segmenta in modo adattivo i video per garantire che ogni porzione analizzata contenga l'esecuzione completa dei componenti critici della prestazione, ripetendo questo processo su più segmenti per massimizzare la copertura delle informazioni mantenendo la coerenza temporale. Valutato sul benchmark EgoExo4D con SkillFormer, PATS supera l'accuratezza dello stato dell'arte in tutte le configurazioni di visualizzazione (+0,65% a +3,05%) e offre miglioramenti sostanziali in domini impegnativi (+26,22% bouldering, +2,39% musica, +1,13% basket). L'analisi sistematica rivela che PATS si adatta con successo a diverse caratteristiche delle attività, dal campionamento ad alta frequenza per sport dinamici alla segmentazione fine per abilità sequenziali, dimostrando la sua efficacia come approccio adattivo al campionamento temporale che avanza la valutazione automatizzata delle abilità per applicazioni nel mondo reale.
English
Automated sports skill assessment requires capturing fundamental movement
patterns that distinguish expert from novice performance, yet current video
sampling methods disrupt the temporal continuity essential for proficiency
evaluation. To this end, we introduce Proficiency-Aware Temporal Sampling
(PATS), a novel sampling strategy that preserves complete fundamental movements
within continuous temporal segments for multi-view skill assessment. PATS
adaptively segments videos to ensure each analyzed portion contains full
execution of critical performance components, repeating this process across
multiple segments to maximize information coverage while maintaining temporal
coherence. Evaluated on the EgoExo4D benchmark with SkillFormer, PATS surpasses
the state-of-the-art accuracy across all viewing configurations (+0.65% to
+3.05%) and delivers substantial gains in challenging domains (+26.22%
bouldering, +2.39% music, +1.13% basketball). Systematic analysis reveals that
PATS successfully adapts to diverse activity characteristics-from
high-frequency sampling for dynamic sports to fine-grained segmentation for
sequential skills-demonstrating its effectiveness as an adaptive approach to
temporal sampling that advances automated skill assessment for real-world
applications.