ProfVLM: Облегченная видеоязыковая модель для оценки многоаспектной компетентности
ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
September 30, 2025
Авторы: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta
cs.AI
Аннотация
Существующие подходы к оценке уровня владения навыками часто полагаются на "черные ящики" видеоклассификаторов, игнорируя контекст с нескольких точек зрения и не обеспечивая объяснимости. Мы представляем ProfVLM — компактную модель, объединяющую зрение и язык, которая переформулирует эту задачу как генеративное рассуждение: она одновременно предсказывает уровень навыка и генерирует экспертные комментарии на основе эгоцентричных и экзоцентричных видео. Ключевым элементом нашего метода является AttentiveGatedProjector, который динамически объединяет признаки с нескольких точек зрения, проецируемые из замороженной основы TimeSformer в языковую модель, настроенную для генерации обратной связи. Обучаясь на данных EgoExo4D с экспертной аннотацией, ProfVLM превосходит современные методы, используя до 20 раз меньше параметров и сокращая время обучения до 60%. Наш подход не только обеспечивает превосходную точность в различных видах деятельности, но и выдает критические замечания на естественном языке, соответствующие производительности, предлагая прозрачное обоснование. Эти результаты подчеркивают генеративное моделирование на основе зрения и языка как мощное новое направление для оценки навыков.
English
Existing approaches to skill proficiency estimation often rely on black-box
video classifiers, ignoring multi-view context and lacking explainability. We
present ProfVLM, a compact vision-language model that reformulates this task as
generative reasoning: it jointly predicts skill level and generates expert-like
feedback from egocentric and exocentric videos. Central to our method is an
AttentiveGatedProjector that dynamically fuses multi-view features, projected
from a frozen TimeSformer backbone into a language model tuned for feedback
generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses
state-of-the-art methods while using up to 20x fewer parameters and reducing
training time by up to 60%. Our approach not only achieves superior accuracy
across diverse activities, but also outputs natural language critiques aligned
with performance, offering transparent reasoning. These results highlight
generative vision-language modeling as a powerful new direction for skill
assessment.