SeFAR: Полу-надзорное распознавание действий с тонкой детализацией с временными возмущениями и стабилизацией обучения
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
January 2, 2025
Авторы: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI
Аннотация
Понимание человеческих действий критически важно для развития мультимодальных систем. В то время как недавние достижения, поддерживаемые мощными крупномасштабными языковыми моделями (LLM), стремятся быть достаточно общими, чтобы охватывать широкий спектр категорий, они часто не учитывают необходимость более специфических возможностей. В данной работе мы занимаемся более сложной задачей распознавания действий Fein-grained (FAR), которая фокусируется на детальных семантических метках в более коротких временных интервалах (например, "сальто назад с одним оборотом"). Учитывая высокие затраты на разметку Fein-grained меток и значительный объем данных, необходимый для настройки LLM, мы предлагаем использовать полу-надзорное обучение (SSL). Наша структура, SeFAR, включает несколько инновационных решений для решения этих проблем. Конкретно, для захвата достаточного количества визуальных деталей мы создаем двухуровневые временные элементы как более эффективные представления, на основе которых мы разрабатываем новую стратегию сильного увеличения для парадигмы обучения Учитель-Студент, включая умеренные временные возмущения. Кроме того, чтобы справиться с высокой неопределенностью в предсказаниях учителя для FAR, мы предлагаем Адаптивное Регулирование для стабилизации процесса обучения. Эксперименты показывают, что SeFAR достигает передового уровня производительности на двух наборах данных FAR, FineGym и FineDiving, в различных областях данных. Он также превосходит другие методы полу-надзорного обучения на двух классических грубо-зернистых наборах данных, UCF101 и HMDB51. Дополнительный анализ и исследования абляции подтверждают эффективность наших решений. Кроме того, мы показываем, что признаки, извлеченные нашим SeFAR, в значительной степени способствуют способности мультимодальных базовых моделей понимать Fein-grained и доменно-специфическую семантику.
English
Human action understanding is crucial for the advancement of multimodal
systems. While recent developments, driven by powerful large language models
(LLMs), aim to be general enough to cover a wide range of categories, they
often overlook the need for more specific capabilities. In this work, we
address the more challenging task of Fine-grained Action Recognition (FAR),
which focuses on detailed semantic labels within shorter temporal duration
(e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating
fine-grained labels and the substantial data needed for fine-tuning LLMs, we
propose to adopt semi-supervised learning (SSL). Our framework, SeFAR,
incorporates several innovative designs to tackle these challenges.
Specifically, to capture sufficient visual details, we construct Dual-level
temporal elements as more effective representations, based on which we design a
new strong augmentation strategy for the Teacher-Student learning paradigm
through involving moderate temporal perturbation. Furthermore, to handle the
high uncertainty within the teacher model's predictions for FAR, we propose the
Adaptive Regulation to stabilize the learning process. Experiments show that
SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and
FineDiving, across various data scopes. It also outperforms other
semi-supervised methods on two classical coarse-grained datasets, UCF101 and
HMDB51. Further analysis and ablation studies validate the effectiveness of our
designs. Additionally, we show that the features extracted by our SeFAR could
largely promote the ability of multimodal foundation models to understand
fine-grained and domain-specific semantics.Summary
AI-Generated Summary