PATS: Kompetenzbewusstes Temporales Sampling für die Multi-View-Bewertung von Sportfertigkeiten
PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment
June 5, 2025
Autoren: Edoardo Bianchi, Antonio Liotta
cs.AI
Zusammenfassung
Die automatisierte Bewertung von sportlichen Fähigkeiten erfordert die Erfassung grundlegender Bewegungsmuster, die Expertenleistungen von Anfängerleistungen unterscheiden. Aktuelle Videoabtastmethoden unterbrechen jedoch die zeitliche Kontinuität, die für die Bewertung der Kompetenz entscheidend ist. Zu diesem Zweck führen wir Proficiency-Aware Temporal Sampling (PATS) ein, eine neuartige Abtaststrategie, die vollständige grundlegende Bewegungen innerhalb kontinuierlicher zeitlicher Segmente für die Bewertung von Fähigkeiten aus mehreren Blickwinkeln bewahrt. PATS segmentiert Videos adaptiv, um sicherzustellen, dass jeder analysierte Abschnitt die vollständige Ausführung kritischer Leistungskomponenten enthält. Dieser Prozess wird über mehrere Segmente hinweg wiederholt, um die Informationsabdeckung zu maximieren und gleichzeitig die zeitliche Kohärenz zu erhalten. Bewertet auf der EgoExo4D-Benchmark mit SkillFormer, übertrifft PATS die state-of-the-art Genauigkeit in allen Blickkonfigurationen (+0,65 % bis +3,05 %) und erzielt erhebliche Verbesserungen in anspruchsvollen Domänen (+26,22 % Bouldern, +2,39 % Musik, +1,13 % Basketball). Eine systematische Analyse zeigt, dass PATS erfolgreich an verschiedene Aktivitätsmerkmale angepasst werden kann – von der Hochfrequenzabtastung für dynamische Sportarten bis zur fein abgestuften Segmentierung für sequenzielle Fähigkeiten – und demonstriert damit seine Effektivität als adaptiver Ansatz zur zeitlichen Abtastung, der die automatisierte Bewertung von Fähigkeiten für reale Anwendungen vorantreibt.
English
Automated sports skill assessment requires capturing fundamental movement
patterns that distinguish expert from novice performance, yet current video
sampling methods disrupt the temporal continuity essential for proficiency
evaluation. To this end, we introduce Proficiency-Aware Temporal Sampling
(PATS), a novel sampling strategy that preserves complete fundamental movements
within continuous temporal segments for multi-view skill assessment. PATS
adaptively segments videos to ensure each analyzed portion contains full
execution of critical performance components, repeating this process across
multiple segments to maximize information coverage while maintaining temporal
coherence. Evaluated on the EgoExo4D benchmark with SkillFormer, PATS surpasses
the state-of-the-art accuracy across all viewing configurations (+0.65% to
+3.05%) and delivers substantial gains in challenging domains (+26.22%
bouldering, +2.39% music, +1.13% basketball). Systematic analysis reveals that
PATS successfully adapts to diverse activity characteristics-from
high-frequency sampling for dynamic sports to fine-grained segmentation for
sequential skills-demonstrating its effectiveness as an adaptive approach to
temporal sampling that advances automated skill assessment for real-world
applications.