Estimación Eficiente en Parámetros de la Competencia Multivista: De la Clasificación Discriminativa a la Retroalimentación Generativa

Resumen

Estimar qué tan bien una persona realiza una acción, en lugar de qué acción se realiza, es fundamental para la formación, la rehabilitación y la identificación de talento. Esta tarea es un desafío porque la competencia se codifica en diferencias sutiles de sincronización, equilibrio, biomecánica y ejecución, a menudo distribuidas en múltiples vistas y eventos temporales breves. Discutimos tres contribuciones recientes a la estimación de competencia multivista en Ego-Exo4D. SkillFormer introduce una arquitectura discriminativa eficiente en parámetros para la fusión multivista selectiva; PATS mejora el muestreo temporal preservando fragmentos localmente densos de movimientos fundamentales; y ProfVLM reformula la estimación de competencia como generación de lenguaje condicional, produciendo tanto una etiqueta de competencia como retroalimentación al estilo experto mediante un proyector cruzado con compuerta y un núcleo de lenguaje compacto. En conjunto, estos métodos logran una precisión de vanguardia en Ego-Exo4D con hasta 20 veces menos parámetros entrenables y hasta 3 veces menos épocas de entrenamiento que los baselines de video-transformers, mientras se transita de la clasificación de conjunto cerrado a la generación de retroalimentación interpretable. Estos resultados destacan un cambio hacia sistemas multivista eficientes que combinan fusión selectiva, muestreo consciente de la competencia y retroalimentación generativa procesable.

English

Estimating how well a person performs an action, rather than which action is performed, is central to coaching, rehabilitation, and talent identification. This task is challenging because proficiency is encoded in subtle differences in timing, balance, body mechanics, and execution, often distributed across multiple views and short temporal events. We discuss three recent contributions to multi-view proficiency estimation on Ego-Exo4D. SkillFormer introduces a parameter-efficient discriminative architecture for selective multi-view fusion; PATS improves temporal sampling by preserving locally dense excerpts of fundamental movements; and ProfVLM reformulates proficiency estimation as conditional language generation, producing both a proficiency label and expert-style feedback through a gated cross-view projector and a compact language backbone. Together, these methods achieve state-of-the-art accuracy on Ego-Exo4D with up to 20x fewer trainable parameters and up to 3x fewer training epochs than video-transformer baselines, while moving from closed-set classification toward interpretable feedback generation. These results highlight a shift toward efficient, multi-view systems that combine selective fusion, proficiency-aware sampling, and actionable generative feedback.

Estimación Eficiente en Parámetros de la Competencia Multivista: De la Clasificación Discriminativa a la Retroalimentación Generativa

Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

Resumen

Support