ProfVLM: Um Modelo Leve de Vídeo-Linguagem para Estimação de Proficiência Multi-View
ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
September 30, 2025
Autores: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta
cs.AI
Resumo
As abordagens existentes para estimativa de proficiência em habilidades frequentemente dependem de classificadores de vídeo de caixa preta, ignorando o contexto de múltiplas visões e carecendo de explicabilidade. Apresentamos o ProfVLM, um modelo compacto de visão e linguagem que reformula essa tarefa como raciocínio generativo: ele prevê conjuntamente o nível de habilidade e gera feedback semelhante ao de especialistas a partir de vídeos egocêntricos e exocêntricos. Central ao nosso método é um AttentiveGatedProjector que funde dinamicamente características de múltiplas visões, projetadas a partir de uma estrutura congelada TimeSformer em um modelo de linguagem ajustado para geração de feedback. Treinado no EgoExo4D com comentários de especialistas, o ProfVLM supera os métodos state-of-the-art enquanto utiliza até 20 vezes menos parâmetros e reduz o tempo de treinamento em até 60%. Nossa abordagem não apenas alcança precisão superior em diversas atividades, mas também produz críticas em linguagem natural alinhadas ao desempenho, oferecendo raciocínio transparente. Esses resultados destacam a modelagem generativa de visão e linguagem como uma nova e poderosa direção para avaliação de habilidades.
English
Existing approaches to skill proficiency estimation often rely on black-box
video classifiers, ignoring multi-view context and lacking explainability. We
present ProfVLM, a compact vision-language model that reformulates this task as
generative reasoning: it jointly predicts skill level and generates expert-like
feedback from egocentric and exocentric videos. Central to our method is an
AttentiveGatedProjector that dynamically fuses multi-view features, projected
from a frozen TimeSformer backbone into a language model tuned for feedback
generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses
state-of-the-art methods while using up to 20x fewer parameters and reducing
training time by up to 60%. Our approach not only achieves superior accuracy
across diverse activities, but also outputs natural language critiques aligned
with performance, offering transparent reasoning. These results highlight
generative vision-language modeling as a powerful new direction for skill
assessment.