Parameter-Efficient Multi-View Proficiency Estimation: Von diskriminativer Klassifikation zu generativem Feedback

Zusammenfassung

Die Einschätzung, wie gut eine Person eine Handlung ausführt, anstatt welche Handlung ausgeführt wird, ist zentral für Coaching, Rehabilitation und Talenterkennung. Diese Aufgabe ist anspruchsvoll, da Kompetenz sich in subtilen Unterschieden in Timing, Balance, Körpermechanik und Ausführung zeigt, die oft über mehrere Blickwinkel und kurze zeitliche Ereignisse verteilt sind. Wir diskutieren drei aktuelle Beiträge zur Multi-View-Kompetenzschätzung auf Ego-Exo4D. SkillFormer führt eine parameter-effiziente, diskriminative Architektur für selektive Multi-View-Fusion ein; PATS verbessert die temporale Abtastung durch Bewahrung lokal dichter Ausschnitte grundlegender Bewegungen; und ProfVLM formuliert Kompetenzschätzung als bedingte Sprachgenerierung um, die sowohl ein Kompetenzlabel als auch expertenähnliches Feedback durch einen gated Cross-View-Projektor und einen kompakten Sprach-Backbone erzeugt. Gemeinsam erreichen diese Methoden state-of-the-art Genauigkeit auf Ego-Exo4D mit bis zu 20-mal weniger trainierbaren Parametern und bis zu 3-mal weniger Trainingsepochen als Video-Transformer-Baselines, während sie sich von Closed-Set-Klassifikation hin zu interpretierbarer Feedback-Generierung bewegen. Diese Ergebnisse unterstreichen einen Wandel hin zu effizienten Multi-View-Systemen, die selektive Fusion, kompetenzbewusste Abtastung und umsetzbares generatives Feedback kombinieren.

English

Estimating how well a person performs an action, rather than which action is performed, is central to coaching, rehabilitation, and talent identification. This task is challenging because proficiency is encoded in subtle differences in timing, balance, body mechanics, and execution, often distributed across multiple views and short temporal events. We discuss three recent contributions to multi-view proficiency estimation on Ego-Exo4D. SkillFormer introduces a parameter-efficient discriminative architecture for selective multi-view fusion; PATS improves temporal sampling by preserving locally dense excerpts of fundamental movements; and ProfVLM reformulates proficiency estimation as conditional language generation, producing both a proficiency label and expert-style feedback through a gated cross-view projector and a compact language backbone. Together, these methods achieve state-of-the-art accuracy on Ego-Exo4D with up to 20x fewer trainable parameters and up to 3x fewer training epochs than video-transformer baselines, while moving from closed-set classification toward interpretable feedback generation. These results highlight a shift toward efficient, multi-view systems that combine selective fusion, proficiency-aware sampling, and actionable generative feedback.

Parameter-Efficient Multi-View Proficiency Estimation: Von diskriminativer Klassifikation zu generativem Feedback

Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

Zusammenfassung

Support