ProfVLM: Un Modelo Ligero de Video-Lenguaje para la Estimación de Competencia Multivista

Resumen

Los enfoques existentes para la estimación de la competencia en habilidades a menudo dependen de clasificadores de video de caja negra, ignorando el contexto de múltiples vistas y careciendo de explicabilidad. Presentamos ProfVLM, un modelo compacto de visión y lenguaje que reformula esta tarea como un razonamiento generativo: predice conjuntamente el nivel de habilidad y genera comentarios similares a los de expertos a partir de videos egocéntricos y exocéntricos. El núcleo de nuestro método es un Proyector con Compuerta Atenta que fusiona dinámicamente características de múltiples vistas, proyectadas desde una arquitectura congelada de TimeSformer hacia un modelo de lenguaje ajustado para la generación de comentarios. Entrenado en EgoExo4D con comentarios de expertos, ProfVLM supera a los métodos más avanzados mientras utiliza hasta 20 veces menos parámetros y reduce el tiempo de entrenamiento hasta en un 60%. Nuestro enfoque no solo logra una precisión superior en diversas actividades, sino que también produce críticas en lenguaje natural alineadas con el rendimiento, ofreciendo un razonamiento transparente. Estos resultados destacan el modelado generativo de visión y lenguaje como una nueva y poderosa dirección para la evaluación de habilidades.

English

Existing approaches to skill proficiency estimation often rely on black-box video classifiers, ignoring multi-view context and lacking explainability. We present ProfVLM, a compact vision-language model that reformulates this task as generative reasoning: it jointly predicts skill level and generates expert-like feedback from egocentric and exocentric videos. Central to our method is an AttentiveGatedProjector that dynamically fuses multi-view features, projected from a frozen TimeSformer backbone into a language model tuned for feedback generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses state-of-the-art methods while using up to 20x fewer parameters and reducing training time by up to 60%. Our approach not only achieves superior accuracy across diverse activities, but also outputs natural language critiques aligned with performance, offering transparent reasoning. These results highlight generative vision-language modeling as a powerful new direction for skill assessment.

ProfVLM: Un Modelo Ligero de Video-Lenguaje para la Estimación de Competencia Multivista

ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation

Resumen

Support