Estimation Efficace des Compétences Multi-Vues par Paramètres : De la Classification Discriminative au Retour Génératif

Résumé

Évaluer la qualité d'exécution d'une action, plutôt que d'identifier l'action elle-même, est essentiel dans le coaching, la rééducation et l'identification des talents. Cette tâche est complexe car la maîtrise est encodée dans des différences subtiles de synchronisation, d'équilibre, de mécanique corporelle et d'exécution, souvent réparties sur plusieurs angles de vue et de brefs événements temporels. Nous présentons trois contributions récentes à l'estimation de la maîtrise multi-vues sur Ego-Exo4D. SkillFormer introduit une architecture discriminante à paramètres efficaces pour une fusion multi-vues sélective ; PATS amène l'échantillonnage temporel en préservant des extraits localement denses des mouvements fondamentaux ; et ProfVLM reformule l'estimation de la maîtrise comme un génération conditionnelle de langage, produisant à la fois un score de compétence et un retour d'expert via un projecteur multi-vues à porte et un modèle de langage compact. Ensemble, ces méthodes atteignent une précision de pointe sur Ego-Exo4D avec jusqu'à 20 fois moins de paramètres entraînables et 3 fois moins d'époques d'entraînement que les modèles de référence basés sur des transformers vidéo, tout en passant d'une classification en ensemble fermé à une génération de retours interprétables. Ces résultats soulignent une transition vers des systèmes multi-vues efficaces combinant fusion sélective, échantillonnage sensible à la maîtrise et retours génératifs actionnables.

English

Estimating how well a person performs an action, rather than which action is performed, is central to coaching, rehabilitation, and talent identification. This task is challenging because proficiency is encoded in subtle differences in timing, balance, body mechanics, and execution, often distributed across multiple views and short temporal events. We discuss three recent contributions to multi-view proficiency estimation on Ego-Exo4D. SkillFormer introduces a parameter-efficient discriminative architecture for selective multi-view fusion; PATS improves temporal sampling by preserving locally dense excerpts of fundamental movements; and ProfVLM reformulates proficiency estimation as conditional language generation, producing both a proficiency label and expert-style feedback through a gated cross-view projector and a compact language backbone. Together, these methods achieve state-of-the-art accuracy on Ego-Exo4D with up to 20x fewer trainable parameters and up to 3x fewer training epochs than video-transformer baselines, while moving from closed-set classification toward interpretable feedback generation. These results highlight a shift toward efficient, multi-view systems that combine selective fusion, proficiency-aware sampling, and actionable generative feedback.

Estimation Efficace des Compétences Multi-Vues par Paramètres : De la Classification Discriminative au Retour Génératif

Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

Résumé

Support