ProfVLM: Un Modello Leggero Video-Linguistico per la Stima della Competenza Multi-View
ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
September 30, 2025
Autori: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta
cs.AI
Abstract
Gli approcci esistenti per la stima della competenza spesso si basano su classificatori video a scatola nera, ignorando il contesto multi-vista e mancando di spiegabilità. Presentiamo ProfVLM, un modello compatto visione-linguaggio che riformula questo compito come ragionamento generativo: prevede congiuntamente il livello di competenza e genera feedback simili a quelli di esperti a partire da video egocentrici ed exocentrici. Elemento centrale del nostro metodo è un AttentiveGatedProjector che fonde dinamicamente le caratteristiche multi-vista, proiettate da un backbone TimeSformer congelato in un modello linguistico ottimizzato per la generazione di feedback. Addestrato su EgoExo4D con commenti di esperti, ProfVLM supera i metodi all'avanguardia utilizzando fino a 20 volte meno parametri e riducendo il tempo di addestramento fino al 60%. Il nostro approccio non solo raggiunge un'accuratezza superiore in diverse attività, ma produce anche critiche in linguaggio naturale allineate alla performance, offrendo un ragionamento trasparente. Questi risultati evidenziano la modellazione generativa visione-linguaggio come una nuova e potente direzione per la valutazione delle competenze.
English
Existing approaches to skill proficiency estimation often rely on black-box
video classifiers, ignoring multi-view context and lacking explainability. We
present ProfVLM, a compact vision-language model that reformulates this task as
generative reasoning: it jointly predicts skill level and generates expert-like
feedback from egocentric and exocentric videos. Central to our method is an
AttentiveGatedProjector that dynamically fuses multi-view features, projected
from a frozen TimeSformer backbone into a language model tuned for feedback
generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses
state-of-the-art methods while using up to 20x fewer parameters and reducing
training time by up to 60%. Our approach not only achieves superior accuracy
across diverse activities, but also outputs natural language critiques aligned
with performance, offering transparent reasoning. These results highlight
generative vision-language modeling as a powerful new direction for skill
assessment.