ProfVLM: Een Lichtgewicht Video-Taalmodel voor Schattingsvaardigheid in Multi-Perspectief
ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
September 30, 2025
Auteurs: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta
cs.AI
Samenvatting
Bestaande benaderingen voor het schatten van vaardigheidsniveaus vertrouwen vaak op black-box videoclassificatoren, waarbij multi-view context wordt genegeerd en uitlegbaarheid ontbreekt. Wij presenteren ProfVLM, een compact vision-language model dat deze taak herformuleert als generatief redeneren: het voorspelt gezamenlijk het vaardigheidsniveau en genereert expertachtige feedback op basis van egocentrische en exocentrische video's. Centraal in onze methode staat een AttentiveGatedProjector die multi-view kenmerken dynamisch samenvoegt, geprojecteerd vanuit een bevroren TimeSformer-backbone naar een taalmodel dat is afgestemd op feedbackgeneratie. Getraind op EgoExo4D met expertcommentaren, overtreft ProfVLM state-of-the-art methoden terwijl het tot 20x minder parameters gebruikt en de trainingsduur met tot 60% reduceert. Onze benadering bereikt niet alleen superieure nauwkeurigheid over diverse activiteiten, maar produceert ook natuurlijke taalkritieken die zijn afgestemd op de prestaties, waardoor transparant redeneren wordt geboden. Deze resultaten benadrukken generatieve vision-language modellering als een krachtige nieuwe richting voor vaardigheidsbeoordeling.
English
Existing approaches to skill proficiency estimation often rely on black-box
video classifiers, ignoring multi-view context and lacking explainability. We
present ProfVLM, a compact vision-language model that reformulates this task as
generative reasoning: it jointly predicts skill level and generates expert-like
feedback from egocentric and exocentric videos. Central to our method is an
AttentiveGatedProjector that dynamically fuses multi-view features, projected
from a frozen TimeSformer backbone into a language model tuned for feedback
generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses
state-of-the-art methods while using up to 20x fewer parameters and reducing
training time by up to 60%. Our approach not only achieves superior accuracy
across diverse activities, but also outputs natural language critiques aligned
with performance, offering transparent reasoning. These results highlight
generative vision-language modeling as a powerful new direction for skill
assessment.