ProfVLM: Um Modelo Leve de Vídeo-Linguagem para Estimação de Proficiência Multi-View

Resumo

As abordagens existentes para estimativa de proficiência em habilidades frequentemente dependem de classificadores de vídeo de caixa preta, ignorando o contexto de múltiplas visões e carecendo de explicabilidade. Apresentamos o ProfVLM, um modelo compacto de visão e linguagem que reformula essa tarefa como raciocínio generativo: ele prevê conjuntamente o nível de habilidade e gera feedback semelhante ao de especialistas a partir de vídeos egocêntricos e exocêntricos. Central ao nosso método é um AttentiveGatedProjector que funde dinamicamente características de múltiplas visões, projetadas a partir de uma estrutura congelada TimeSformer em um modelo de linguagem ajustado para geração de feedback. Treinado no EgoExo4D com comentários de especialistas, o ProfVLM supera os métodos state-of-the-art enquanto utiliza até 20 vezes menos parâmetros e reduz o tempo de treinamento em até 60%. Nossa abordagem não apenas alcança precisão superior em diversas atividades, mas também produz críticas em linguagem natural alinhadas ao desempenho, oferecendo raciocínio transparente. Esses resultados destacam a modelagem generativa de visão e linguagem como uma nova e poderosa direção para avaliação de habilidades.

English

Existing approaches to skill proficiency estimation often rely on black-box video classifiers, ignoring multi-view context and lacking explainability. We present ProfVLM, a compact vision-language model that reformulates this task as generative reasoning: it jointly predicts skill level and generates expert-like feedback from egocentric and exocentric videos. Central to our method is an AttentiveGatedProjector that dynamically fuses multi-view features, projected from a frozen TimeSformer backbone into a language model tuned for feedback generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses state-of-the-art methods while using up to 20x fewer parameters and reducing training time by up to 60%. Our approach not only achieves superior accuracy across diverse activities, but also outputs natural language critiques aligned with performance, offering transparent reasoning. These results highlight generative vision-language modeling as a powerful new direction for skill assessment.

ProfVLM: Um Modelo Leve de Vídeo-Linguagem para Estimação de Proficiência Multi-View

ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation

Resumo

Support