ProfVLM : Un modèle vidéo-langage léger pour l'estimation de la maîtrise multi-perspectives
ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
September 30, 2025
papers.authors: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta
cs.AI
papers.abstract
Les approches existantes pour l'estimation de la maîtrise des compétences reposent souvent sur des classificateurs vidéo en boîte noire, ignorant le contexte multi-vues et manquant d'explicabilité. Nous présentons ProfVLM, un modèle compact vision-langage qui reformule cette tâche en un raisonnement génératif : il prédit conjointement le niveau de compétence et génère des retours d'experts à partir de vidéos égocentriques et exocentriques. Au cœur de notre méthode se trouve un AttentiveGatedProjector qui fusionne dynamiquement les caractéristiques multi-vues, projetées depuis un backbone TimeSformer figé vers un modèle de langage ajusté pour la génération de feedback. Entraîné sur EgoExo4D avec des commentaires d'experts, ProfVLM surpasse les méthodes de pointe tout en utilisant jusqu'à 20 fois moins de paramètres et en réduisant le temps d'entraînement jusqu'à 60 %. Notre approche non seulement atteint une précision supérieure sur diverses activités, mais produit également des critiques en langage naturel alignées sur la performance, offrant un raisonnement transparent. Ces résultats mettent en lumière la modélisation générative vision-langage comme une nouvelle direction puissante pour l'évaluation des compétences.
English
Existing approaches to skill proficiency estimation often rely on black-box
video classifiers, ignoring multi-view context and lacking explainability. We
present ProfVLM, a compact vision-language model that reformulates this task as
generative reasoning: it jointly predicts skill level and generates expert-like
feedback from egocentric and exocentric videos. Central to our method is an
AttentiveGatedProjector that dynamically fuses multi-view features, projected
from a frozen TimeSformer backbone into a language model tuned for feedback
generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses
state-of-the-art methods while using up to 20x fewer parameters and reducing
training time by up to 60%. Our approach not only achieves superior accuracy
across diverse activities, but also outputs natural language critiques aligned
with performance, offering transparent reasoning. These results highlight
generative vision-language modeling as a powerful new direction for skill
assessment.