SeFAR : Reconnaissance d'actions à grain fin semi-supervisée avec perturbation temporelle et stabilisation de l'apprentissage
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
January 2, 2025
Auteurs: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI
Résumé
La compréhension des actions humaines est cruciale pour l'avancement des systèmes multimodaux. Alors que les récents développements, stimulés par de puissants grands modèles de langage (LLM), visent à être suffisamment généraux pour couvrir un large éventail de catégories, ils négligent souvent le besoin de capacités plus spécifiques. Dans ce travail, nous abordons la tâche plus complexe de la Reconnaissance Fine des Actions (FAR), qui se concentre sur des libellés sémantiques détaillés dans des durées temporelles plus courtes (par exemple, "salto arrière groupé avec 1 tour"). Étant donné les coûts élevés d'annotation des libellés fins et la quantité substantielle de données nécessaires pour le réglage fin des LLM, nous proposons d'adopter l'apprentissage semi-supervisé (SSL). Notre cadre, SeFAR, intègre plusieurs conceptions innovantes pour relever ces défis. Plus précisément, pour capturer suffisamment de détails visuels, nous construisons des éléments temporels à deux niveaux comme des représentations plus efficaces, sur la base desquelles nous concevons une nouvelle stratégie d'augmentation forte pour le paradigme d'apprentissage Maître-Élève en impliquant une perturbation temporelle modérée. De plus, pour gérer l'incertitude élevée au sein des prédictions du modèle enseignant pour FAR, nous proposons la Régulation Adaptative pour stabiliser le processus d'apprentissage. Les expériences montrent que SeFAR atteint des performances de pointe sur deux ensembles de données FAR, FineGym et FineDiving, à travers diverses étendues de données. Il surpasse également d'autres méthodes semi-supervisées sur deux ensembles de données classiques à grain grossier, UCF101 et HMDB51. Des analyses supplémentaires et des études d'ablation valident l'efficacité de nos conceptions. De plus, nous montrons que les caractéristiques extraites par notre SeFAR pourraient largement promouvoir la capacité des modèles de base multimodaux à comprendre des sémantiques fines et spécifiques au domaine.
English
Human action understanding is crucial for the advancement of multimodal
systems. While recent developments, driven by powerful large language models
(LLMs), aim to be general enough to cover a wide range of categories, they
often overlook the need for more specific capabilities. In this work, we
address the more challenging task of Fine-grained Action Recognition (FAR),
which focuses on detailed semantic labels within shorter temporal duration
(e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating
fine-grained labels and the substantial data needed for fine-tuning LLMs, we
propose to adopt semi-supervised learning (SSL). Our framework, SeFAR,
incorporates several innovative designs to tackle these challenges.
Specifically, to capture sufficient visual details, we construct Dual-level
temporal elements as more effective representations, based on which we design a
new strong augmentation strategy for the Teacher-Student learning paradigm
through involving moderate temporal perturbation. Furthermore, to handle the
high uncertainty within the teacher model's predictions for FAR, we propose the
Adaptive Regulation to stabilize the learning process. Experiments show that
SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and
FineDiving, across various data scopes. It also outperforms other
semi-supervised methods on two classical coarse-grained datasets, UCF101 and
HMDB51. Further analysis and ablation studies validate the effectiveness of our
designs. Additionally, we show that the features extracted by our SeFAR could
largely promote the ability of multimodal foundation models to understand
fine-grained and domain-specific semantics.