SeFAR : Reconnaissance d'actions à grain fin semi-supervisée avec perturbation temporelle et stabilisation de l'apprentissage

papers.abstract

La compréhension des actions humaines est cruciale pour l'avancement des systèmes multimodaux. Alors que les récents développements, stimulés par de puissants grands modèles de langage (LLM), visent à être suffisamment généraux pour couvrir un large éventail de catégories, ils négligent souvent le besoin de capacités plus spécifiques. Dans ce travail, nous abordons la tâche plus complexe de la Reconnaissance Fine des Actions (FAR), qui se concentre sur des libellés sémantiques détaillés dans des durées temporelles plus courtes (par exemple, "salto arrière groupé avec 1 tour"). Étant donné les coûts élevés d'annotation des libellés fins et la quantité substantielle de données nécessaires pour le réglage fin des LLM, nous proposons d'adopter l'apprentissage semi-supervisé (SSL). Notre cadre, SeFAR, intègre plusieurs conceptions innovantes pour relever ces défis. Plus précisément, pour capturer suffisamment de détails visuels, nous construisons des éléments temporels à deux niveaux comme des représentations plus efficaces, sur la base desquelles nous concevons une nouvelle stratégie d'augmentation forte pour le paradigme d'apprentissage Maître-Élève en impliquant une perturbation temporelle modérée. De plus, pour gérer l'incertitude élevée au sein des prédictions du modèle enseignant pour FAR, nous proposons la Régulation Adaptative pour stabiliser le processus d'apprentissage. Les expériences montrent que SeFAR atteint des performances de pointe sur deux ensembles de données FAR, FineGym et FineDiving, à travers diverses étendues de données. Il surpasse également d'autres méthodes semi-supervisées sur deux ensembles de données classiques à grain grossier, UCF101 et HMDB51. Des analyses supplémentaires et des études d'ablation valident l'efficacité de nos conceptions. De plus, nous montrons que les caractéristiques extraites par notre SeFAR pourraient largement promouvoir la capacité des modèles de base multimodaux à comprendre des sémantiques fines et spécifiques au domaine.

English

Human action understanding is crucial for the advancement of multimodal systems. While recent developments, driven by powerful large language models (LLMs), aim to be general enough to cover a wide range of categories, they often overlook the need for more specific capabilities. In this work, we address the more challenging task of Fine-grained Action Recognition (FAR), which focuses on detailed semantic labels within shorter temporal duration (e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating fine-grained labels and the substantial data needed for fine-tuning LLMs, we propose to adopt semi-supervised learning (SSL). Our framework, SeFAR, incorporates several innovative designs to tackle these challenges. Specifically, to capture sufficient visual details, we construct Dual-level temporal elements as more effective representations, based on which we design a new strong augmentation strategy for the Teacher-Student learning paradigm through involving moderate temporal perturbation. Furthermore, to handle the high uncertainty within the teacher model's predictions for FAR, we propose the Adaptive Regulation to stabilize the learning process. Experiments show that SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and FineDiving, across various data scopes. It also outperforms other semi-supervised methods on two classical coarse-grained datasets, UCF101 and HMDB51. Further analysis and ablation studies validate the effectiveness of our designs. Additionally, we show that the features extracted by our SeFAR could largely promote the ability of multimodal foundation models to understand fine-grained and domain-specific semantics.

SeFAR : Reconnaissance d'actions à grain fin semi-supervisée avec perturbation temporelle et stabilisation de l'apprentissage

SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization

papers.abstract

Support