PATS: Временная выборка с учетом уровня мастерства для оценки спортивных навыков на основе многокадрового анализа
PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment
June 5, 2025
Авторы: Edoardo Bianchi, Antonio Liotta
cs.AI
Аннотация
Автоматизированная оценка спортивных навыков требует захвата фундаментальных моделей движений, которые отличают мастерство от новичков, однако современные методы видеосэмплирования нарушают временную непрерывность, необходимую для оценки профессионализма. В связи с этим мы представляем Proficiency-Aware Temporal Sampling (PATS) — новую стратегию сэмплирования, которая сохраняет полные фундаментальные движения в рамках непрерывных временных сегментов для многоплановой оценки навыков. PATS адаптивно сегментирует видео, чтобы каждая анализируемая часть содержала полное выполнение критически важных компонентов производительности, повторяя этот процесс на нескольких сегментах для максимизации охвата информации при сохранении временной согласованности. Оцененная на бенчмарке EgoExo4D с использованием SkillFormer, PATS превосходит современные показатели точности во всех конфигурациях просмотра (+0,65% до +3,05%) и демонстрирует значительные улучшения в сложных областях (+26,22% в боулдеринге, +2,39% в музыке, +1,13% в баскетболе). Систематический анализ показывает, что PATS успешно адаптируется к разнообразным характеристикам активности — от высокочастотного сэмплирования для динамичных видов спорта до детализированной сегментации для последовательных навыков, — демонстрируя свою эффективность как адаптивный подход к временному сэмплированию, который продвигает автоматизированную оценку навыков для реальных приложений.
English
Automated sports skill assessment requires capturing fundamental movement
patterns that distinguish expert from novice performance, yet current video
sampling methods disrupt the temporal continuity essential for proficiency
evaluation. To this end, we introduce Proficiency-Aware Temporal Sampling
(PATS), a novel sampling strategy that preserves complete fundamental movements
within continuous temporal segments for multi-view skill assessment. PATS
adaptively segments videos to ensure each analyzed portion contains full
execution of critical performance components, repeating this process across
multiple segments to maximize information coverage while maintaining temporal
coherence. Evaluated on the EgoExo4D benchmark with SkillFormer, PATS surpasses
the state-of-the-art accuracy across all viewing configurations (+0.65% to
+3.05%) and delivers substantial gains in challenging domains (+26.22%
bouldering, +2.39% music, +1.13% basketball). Systematic analysis reveals that
PATS successfully adapts to diverse activity characteristics-from
high-frequency sampling for dynamic sports to fine-grained segmentation for
sequential skills-demonstrating its effectiveness as an adaptive approach to
temporal sampling that advances automated skill assessment for real-world
applications.