ProfVLM: Ein leichtgewichtiges Video-Sprach-Modell zur Schätzung der Multi-View-Kompetenz
ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
September 30, 2025
papers.authors: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta
cs.AI
papers.abstract
Bestehende Ansätze zur Schätzung der Fähigkeitskompetenz basieren häufig auf Black-Box-Videoklassifikatoren, die den Multi-View-Kontext ignorieren und an Erklärbarkeit mangeln. Wir stellen ProfVLM vor, ein kompaktes Vision-Language-Modell, das diese Aufgabe als generatives Reasoning neu formuliert: Es sagt gemeinsam das Fähigkeitsniveau voraus und generiert expertenähnliches Feedback aus egozentrischen und exozentrischen Videos. Kern unserer Methode ist ein AttentiveGatedProjector, der Multi-View-Features dynamisch fusioniert, die von einem eingefrorenen TimeSformer-Backbone in ein für die Feedback-Generierung optimiertes Sprachmodell projiziert werden. Auf EgoExo4D mit Expertenkommentaren trainiert, übertrifft ProfVLM state-of-the-art-Methoden, während es bis zu 20-mal weniger Parameter verwendet und die Trainingszeit um bis zu 60 % reduziert. Unser Ansatz erreicht nicht nur eine überlegene Genauigkeit über diverse Aktivitäten hinweg, sondern gibt auch natürliche Sprachkritiken aus, die mit der Leistung übereinstimmen und transparentes Reasoning bieten. Diese Ergebnisse unterstreichen das generative Vision-Language-Modellieren als einen leistungsstarken neuen Ansatz für die Fähigkeitsbewertung.
English
Existing approaches to skill proficiency estimation often rely on black-box
video classifiers, ignoring multi-view context and lacking explainability. We
present ProfVLM, a compact vision-language model that reformulates this task as
generative reasoning: it jointly predicts skill level and generates expert-like
feedback from egocentric and exocentric videos. Central to our method is an
AttentiveGatedProjector that dynamically fuses multi-view features, projected
from a frozen TimeSformer backbone into a language model tuned for feedback
generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses
state-of-the-art methods while using up to 20x fewer parameters and reducing
training time by up to 60%. Our approach not only achieves superior accuracy
across diverse activities, but also outputs natural language critiques aligned
with performance, offering transparent reasoning. These results highlight
generative vision-language modeling as a powerful new direction for skill
assessment.