Эффективная оценка многомерной компетентности: от дискриминативной классификации к генеративной обратной связи

Аннотация

Оценка того, *насколько хорошо* человек выполняет действие, а не того, *какое* именно действие выполняется, является ключевой задачей в коучинге, реабилитации и идентификации талантов. Эта задача сложна, поскольку уровень мастерства кодируется в малозаметных различиях во времени, балансе, биомеханике и исполнении, которые часто распределены по нескольким ракурсам и коротким временным эпизодам. Мы рассматриваем три последних достижения в оценке мастерства по мульти-ракурсным данным в рамках Ego-Exo4D. SkillFormer предлагает дискриминативную архитектуру с эффективным использованием параметров для селективного мульти-ракурсного слияния; PATS улучшает временную выборку, сохраняя локально плотные фрагменты базовых движений; а ProfVLM переформулирует оценку мастерства как условную языковую генерацию, выдавая как оценку уровня, так и экспертный отзыв через управляемый кросс-ракурсный проектор и компактную языковую модель. В совокупности эти методы достигают state-of-the-art точности на Ego-Exo4D, используя до 20 раз меньше обучаемых параметров и до 3 раз меньше эпох обучения по сравнению с видео-трансформерными базовыми моделями, одновременно осуществляя переход от классификации в закрытом множестве к генерации интерпретируемых отзывов. Эти результаты подчеркивают сдвиг в сторону эффективных мульти-ракурсных систем, сочетающих селективное слияние, учитывающую мастерство выборку и практическую генеративную обратную связь.

English

Estimating how well a person performs an action, rather than which action is performed, is central to coaching, rehabilitation, and talent identification. This task is challenging because proficiency is encoded in subtle differences in timing, balance, body mechanics, and execution, often distributed across multiple views and short temporal events. We discuss three recent contributions to multi-view proficiency estimation on Ego-Exo4D. SkillFormer introduces a parameter-efficient discriminative architecture for selective multi-view fusion; PATS improves temporal sampling by preserving locally dense excerpts of fundamental movements; and ProfVLM reformulates proficiency estimation as conditional language generation, producing both a proficiency label and expert-style feedback through a gated cross-view projector and a compact language backbone. Together, these methods achieve state-of-the-art accuracy on Ego-Exo4D with up to 20x fewer trainable parameters and up to 3x fewer training epochs than video-transformer baselines, while moving from closed-set classification toward interpretable feedback generation. These results highlight a shift toward efficient, multi-view systems that combine selective fusion, proficiency-aware sampling, and actionable generative feedback.

Эффективная оценка многомерной компетентности: от дискриминативной классификации к генеративной обратной связи

Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

Аннотация

Support