SeFAR: Semi-überwachte Feinkörnige Aktionserkennung mit zeitlicher Perturbation und Lernstabilisierung
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
January 2, 2025
Autoren: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI
Zusammenfassung
Das Verständnis menschlicher Handlungen ist entscheidend für die Weiterentwicklung von multimodalen Systemen. Während aktuelle Entwicklungen, angetrieben von leistungsstarken großen Sprachmodellen (LLMs), darauf abzielen, allgemein genug zu sein, um eine breite Palette von Kategorien abzudecken, übersehen sie oft die Notwendigkeit für spezifischere Fähigkeiten. In dieser Arbeit behandeln wir die anspruchsvollere Aufgabe der Feinkörnigen Aktionserkennung (FAR), die sich auf detaillierte semantische Bezeichnungen innerhalb kürzerer zeitlicher Dauer konzentriert (z. B. "Salto rückwärts eingeknickt mit einer Drehung"). Angesichts der hohen Kosten für die Annotation feinkörniger Bezeichnungen und der erheblichen Datenmenge, die für das Feintuning von LLMs erforderlich ist, schlagen wir vor, das semi-überwachte Lernen (SSL) zu übernehmen. Unser Rahmenwerk, SeFAR, integriert mehrere innovative Konzepte, um diese Herausforderungen anzugehen. Insbesondere konstruieren wir zur Erfassung ausreichender visueller Details duale zeitliche Elemente als effektivere Repräsentationen, auf deren Basis wir eine neue starke Augmentierungsstrategie für das Lehrer-Schüler-Lernparadigma entwerfen, indem wir moderate zeitliche Störungen einbeziehen. Darüber hinaus schlagen wir zur Bewältigung der hohen Unsicherheit bei den Vorhersagen des Lehrermodells für FAR die Adaptive Regulation vor, um den Lernprozess zu stabilisieren. Experimente zeigen, dass SeFAR eine Spitzenleistung auf zwei FAR-Datensätzen, FineGym und FineDiving, über verschiedene Datenumfänge erzielt. Es übertrifft auch andere semi-überwachte Methoden auf zwei klassischen grobkörnigen Datensätzen, UCF101 und HMDB51. Weitere Analysen und Ablationsstudien bestätigen die Wirksamkeit unserer Konzepte. Darüber hinaus zeigen wir, dass die von unserem SeFAR extrahierten Merkmale die Fähigkeit von multimodalen Grundlagenmodellen, feinkörnige und domänenspezifische Semantik zu verstehen, erheblich fördern können.
English
Human action understanding is crucial for the advancement of multimodal
systems. While recent developments, driven by powerful large language models
(LLMs), aim to be general enough to cover a wide range of categories, they
often overlook the need for more specific capabilities. In this work, we
address the more challenging task of Fine-grained Action Recognition (FAR),
which focuses on detailed semantic labels within shorter temporal duration
(e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating
fine-grained labels and the substantial data needed for fine-tuning LLMs, we
propose to adopt semi-supervised learning (SSL). Our framework, SeFAR,
incorporates several innovative designs to tackle these challenges.
Specifically, to capture sufficient visual details, we construct Dual-level
temporal elements as more effective representations, based on which we design a
new strong augmentation strategy for the Teacher-Student learning paradigm
through involving moderate temporal perturbation. Furthermore, to handle the
high uncertainty within the teacher model's predictions for FAR, we propose the
Adaptive Regulation to stabilize the learning process. Experiments show that
SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and
FineDiving, across various data scopes. It also outperforms other
semi-supervised methods on two classical coarse-grained datasets, UCF101 and
HMDB51. Further analysis and ablation studies validate the effectiveness of our
designs. Additionally, we show that the features extracted by our SeFAR could
largely promote the ability of multimodal foundation models to understand
fine-grained and domain-specific semantics.Summary
AI-Generated Summary