ChatPaper.aiChatPaper

SkillFormer: Vereinheitlichtes Multi-View-Videoverständnis zur Kompetenzschätzung

SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

May 13, 2025
Autoren: Edoardo Bianchi, Antonio Liotta
cs.AI

Zusammenfassung

Die Bewertung von menschlichen Fähigkeitsniveaus in komplexen Aktivitäten ist eine anspruchsvolle Aufgabe mit Anwendungen in den Bereichen Sport, Rehabilitation und Training. In dieser Arbeit stellen wir SkillFormer vor, eine parameter-effiziente Architektur für die einheitliche Schätzung von Fähigkeiten aus egozentrischen und exozentrischen Videos. Basierend auf dem TimeSformer-Backbone führt SkillFormer ein CrossViewFusion-Modul ein, das viewspezifische Merkmale durch Multi-Head Cross-Attention, lernbare Gating-Mechanismen und adaptive Selbstkalibrierung fusioniert. Wir nutzen Low-Rank Adaptation, um nur eine kleine Teilmenge der Parameter feinzutunen, was die Trainingskosten erheblich reduziert. Tatsächlich erreicht SkillFormer beim Test auf dem EgoExo4D-Datensatz state-of-the-art Genauigkeit in Multi-View-Szenarien und zeigt dabei bemerkenswerte Recheneffizienz, indem es 4,5x weniger Parameter verwendet und 3,75x weniger Trainings-Epochen benötigt als bisherige Baselines. Es überzeugt in mehreren strukturierten Aufgaben und bestätigt den Wert der Multi-View-Integration für die feinkörnige Fähigkeitsbewertung.
English
Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.

Summary

AI-Generated Summary

PDF32May 14, 2025