SeFAR: Полу-надзорное распознавание действий с тонкой детализацией с временными возмущениями и стабилизацией обучения

Аннотация

Понимание человеческих действий критически важно для развития мультимодальных систем. В то время как недавние достижения, поддерживаемые мощными крупномасштабными языковыми моделями (LLM), стремятся быть достаточно общими, чтобы охватывать широкий спектр категорий, они часто не учитывают необходимость более специфических возможностей. В данной работе мы занимаемся более сложной задачей распознавания действий Fein-grained (FAR), которая фокусируется на детальных семантических метках в более коротких временных интервалах (например, "сальто назад с одним оборотом"). Учитывая высокие затраты на разметку Fein-grained меток и значительный объем данных, необходимый для настройки LLM, мы предлагаем использовать полу-надзорное обучение (SSL). Наша структура, SeFAR, включает несколько инновационных решений для решения этих проблем. Конкретно, для захвата достаточного количества визуальных деталей мы создаем двухуровневые временные элементы как более эффективные представления, на основе которых мы разрабатываем новую стратегию сильного увеличения для парадигмы обучения Учитель-Студент, включая умеренные временные возмущения. Кроме того, чтобы справиться с высокой неопределенностью в предсказаниях учителя для FAR, мы предлагаем Адаптивное Регулирование для стабилизации процесса обучения. Эксперименты показывают, что SeFAR достигает передового уровня производительности на двух наборах данных FAR, FineGym и FineDiving, в различных областях данных. Он также превосходит другие методы полу-надзорного обучения на двух классических грубо-зернистых наборах данных, UCF101 и HMDB51. Дополнительный анализ и исследования абляции подтверждают эффективность наших решений. Кроме того, мы показываем, что признаки, извлеченные нашим SeFAR, в значительной степени способствуют способности мультимодальных базовых моделей понимать Fein-grained и доменно-специфическую семантику.

English

Human action understanding is crucial for the advancement of multimodal systems. While recent developments, driven by powerful large language models (LLMs), aim to be general enough to cover a wide range of categories, they often overlook the need for more specific capabilities. In this work, we address the more challenging task of Fine-grained Action Recognition (FAR), which focuses on detailed semantic labels within shorter temporal duration (e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating fine-grained labels and the substantial data needed for fine-tuning LLMs, we propose to adopt semi-supervised learning (SSL). Our framework, SeFAR, incorporates several innovative designs to tackle these challenges. Specifically, to capture sufficient visual details, we construct Dual-level temporal elements as more effective representations, based on which we design a new strong augmentation strategy for the Teacher-Student learning paradigm through involving moderate temporal perturbation. Furthermore, to handle the high uncertainty within the teacher model's predictions for FAR, we propose the Adaptive Regulation to stabilize the learning process. Experiments show that SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and FineDiving, across various data scopes. It also outperforms other semi-supervised methods on two classical coarse-grained datasets, UCF101 and HMDB51. Further analysis and ablation studies validate the effectiveness of our designs. Additionally, we show that the features extracted by our SeFAR could largely promote the ability of multimodal foundation models to understand fine-grained and domain-specific semantics.

SeFAR: Полу-надзорное распознавание действий с тонкой детализацией с временными возмущениями и стабилизацией обучения

SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization

Аннотация

Support