SeFAR: Semi-begeleide fijnmazige actieherkenning met tijdelijke verstoring en leerstabilisatie
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
January 2, 2025
Auteurs: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI
Samenvatting
Het begrip van menselijke acties is cruciaal voor de vooruitgang van multimodale systemen. Terwijl recente ontwikkelingen, aangedreven door krachtige grote taalmodellen (LLM's), gericht zijn op algemeenheid om een breed scala aan categorieën te bestrijken, zien ze vaak de behoefte aan meer specifieke mogelijkheden over het hoofd. In dit werk richten we ons op de uitdagendere taak van Fijnmazige Actieherkenning (FAR), die zich richt op gedetailleerde semantische labels binnen kortere tijdsduur (bijv. "salto achterwaarts met 1 draai"). Gezien de hoge kosten van het annoteren van fijnmazige labels en de aanzienlijke hoeveelheid data die nodig is voor het verfijnen van LLM's, stellen we voor om semi-supervised learning (SSL) te gebruiken. Ons raamwerk, SeFAR, bevat verschillende innovatieve ontwerpen om deze uitdagingen aan te gaan. Specifiek, om voldoende visuele details vast te leggen, construeren we Dubbele temporele elementen als effectievere representaties, op basis waarvan we een nieuwe sterke augmentatiestrategie ontwerpen voor het leerparadigma van Leraar-Leerling door matige temporele verstoring te betrekken. Verder stellen we voor om de Adaptieve Regulatie te gebruiken om de hoge onzekerheid binnen de voorspellingen van het leraarmodel voor FAR aan te pakken en het leerproces te stabiliseren. Experimenten tonen aan dat SeFAR state-of-the-art prestaties behaalt op twee FAR-datasets, FineGym en FineDiving, over verschillende datumbereiken. Het overtreft ook andere semi-supervised methoden op twee klassieke grofmazige datasets, UCF101 en HMDB51. Verdere analyse en ablatiestudies bevestigen de effectiviteit van onze ontwerpen. Bovendien tonen we aan dat de functies geëxtraheerd door onze SeFAR grotendeels de mogelijkheid van multimodale basismodellen kunnen bevorderen om fijnmazige en domeinspecifieke semantiek te begrijpen.
English
Human action understanding is crucial for the advancement of multimodal
systems. While recent developments, driven by powerful large language models
(LLMs), aim to be general enough to cover a wide range of categories, they
often overlook the need for more specific capabilities. In this work, we
address the more challenging task of Fine-grained Action Recognition (FAR),
which focuses on detailed semantic labels within shorter temporal duration
(e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating
fine-grained labels and the substantial data needed for fine-tuning LLMs, we
propose to adopt semi-supervised learning (SSL). Our framework, SeFAR,
incorporates several innovative designs to tackle these challenges.
Specifically, to capture sufficient visual details, we construct Dual-level
temporal elements as more effective representations, based on which we design a
new strong augmentation strategy for the Teacher-Student learning paradigm
through involving moderate temporal perturbation. Furthermore, to handle the
high uncertainty within the teacher model's predictions for FAR, we propose the
Adaptive Regulation to stabilize the learning process. Experiments show that
SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and
FineDiving, across various data scopes. It also outperforms other
semi-supervised methods on two classical coarse-grained datasets, UCF101 and
HMDB51. Further analysis and ablation studies validate the effectiveness of our
designs. Additionally, we show that the features extracted by our SeFAR could
largely promote the ability of multimodal foundation models to understand
fine-grained and domain-specific semantics.Summary
AI-Generated Summary