ProfVLM: Un Modelo Ligero de Video-Lenguaje para la Estimación de Competencia Multivista
ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
September 30, 2025
Autores: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta
cs.AI
Resumen
Los enfoques existentes para la estimación de la competencia en habilidades a menudo dependen de clasificadores de video de caja negra, ignorando el contexto de múltiples vistas y careciendo de explicabilidad. Presentamos ProfVLM, un modelo compacto de visión y lenguaje que reformula esta tarea como un razonamiento generativo: predice conjuntamente el nivel de habilidad y genera comentarios similares a los de expertos a partir de videos egocéntricos y exocéntricos. El núcleo de nuestro método es un Proyector con Compuerta Atenta que fusiona dinámicamente características de múltiples vistas, proyectadas desde una arquitectura congelada de TimeSformer hacia un modelo de lenguaje ajustado para la generación de comentarios. Entrenado en EgoExo4D con comentarios de expertos, ProfVLM supera a los métodos más avanzados mientras utiliza hasta 20 veces menos parámetros y reduce el tiempo de entrenamiento hasta en un 60%. Nuestro enfoque no solo logra una precisión superior en diversas actividades, sino que también produce críticas en lenguaje natural alineadas con el rendimiento, ofreciendo un razonamiento transparente. Estos resultados destacan el modelado generativo de visión y lenguaje como una nueva y poderosa dirección para la evaluación de habilidades.
English
Existing approaches to skill proficiency estimation often rely on black-box
video classifiers, ignoring multi-view context and lacking explainability. We
present ProfVLM, a compact vision-language model that reformulates this task as
generative reasoning: it jointly predicts skill level and generates expert-like
feedback from egocentric and exocentric videos. Central to our method is an
AttentiveGatedProjector that dynamically fuses multi-view features, projected
from a frozen TimeSformer backbone into a language model tuned for feedback
generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses
state-of-the-art methods while using up to 20x fewer parameters and reducing
training time by up to 60%. Our approach not only achieves superior accuracy
across diverse activities, but also outputs natural language critiques aligned
with performance, offering transparent reasoning. These results highlight
generative vision-language modeling as a powerful new direction for skill
assessment.