SeFAR: Semi-überwachte Feinkörnige Aktionserkennung mit zeitlicher Perturbation und Lernstabilisierung

papers.abstract

Das Verständnis menschlicher Handlungen ist entscheidend für die Weiterentwicklung von multimodalen Systemen. Während aktuelle Entwicklungen, angetrieben von leistungsstarken großen Sprachmodellen (LLMs), darauf abzielen, allgemein genug zu sein, um eine breite Palette von Kategorien abzudecken, übersehen sie oft die Notwendigkeit für spezifischere Fähigkeiten. In dieser Arbeit behandeln wir die anspruchsvollere Aufgabe der Feinkörnigen Aktionserkennung (FAR), die sich auf detaillierte semantische Bezeichnungen innerhalb kürzerer zeitlicher Dauer konzentriert (z. B. "Salto rückwärts eingeknickt mit einer Drehung"). Angesichts der hohen Kosten für die Annotation feinkörniger Bezeichnungen und der erheblichen Datenmenge, die für das Feintuning von LLMs erforderlich ist, schlagen wir vor, das semi-überwachte Lernen (SSL) zu übernehmen. Unser Rahmenwerk, SeFAR, integriert mehrere innovative Konzepte, um diese Herausforderungen anzugehen. Insbesondere konstruieren wir zur Erfassung ausreichender visueller Details duale zeitliche Elemente als effektivere Repräsentationen, auf deren Basis wir eine neue starke Augmentierungsstrategie für das Lehrer-Schüler-Lernparadigma entwerfen, indem wir moderate zeitliche Störungen einbeziehen. Darüber hinaus schlagen wir zur Bewältigung der hohen Unsicherheit bei den Vorhersagen des Lehrermodells für FAR die Adaptive Regulation vor, um den Lernprozess zu stabilisieren. Experimente zeigen, dass SeFAR eine Spitzenleistung auf zwei FAR-Datensätzen, FineGym und FineDiving, über verschiedene Datenumfänge erzielt. Es übertrifft auch andere semi-überwachte Methoden auf zwei klassischen grobkörnigen Datensätzen, UCF101 und HMDB51. Weitere Analysen und Ablationsstudien bestätigen die Wirksamkeit unserer Konzepte. Darüber hinaus zeigen wir, dass die von unserem SeFAR extrahierten Merkmale die Fähigkeit von multimodalen Grundlagenmodellen, feinkörnige und domänenspezifische Semantik zu verstehen, erheblich fördern können.

English

Human action understanding is crucial for the advancement of multimodal systems. While recent developments, driven by powerful large language models (LLMs), aim to be general enough to cover a wide range of categories, they often overlook the need for more specific capabilities. In this work, we address the more challenging task of Fine-grained Action Recognition (FAR), which focuses on detailed semantic labels within shorter temporal duration (e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating fine-grained labels and the substantial data needed for fine-tuning LLMs, we propose to adopt semi-supervised learning (SSL). Our framework, SeFAR, incorporates several innovative designs to tackle these challenges. Specifically, to capture sufficient visual details, we construct Dual-level temporal elements as more effective representations, based on which we design a new strong augmentation strategy for the Teacher-Student learning paradigm through involving moderate temporal perturbation. Furthermore, to handle the high uncertainty within the teacher model's predictions for FAR, we propose the Adaptive Regulation to stabilize the learning process. Experiments show that SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and FineDiving, across various data scopes. It also outperforms other semi-supervised methods on two classical coarse-grained datasets, UCF101 and HMDB51. Further analysis and ablation studies validate the effectiveness of our designs. Additionally, we show that the features extracted by our SeFAR could largely promote the ability of multimodal foundation models to understand fine-grained and domain-specific semantics.

SeFAR: Semi-überwachte Feinkörnige Aktionserkennung mit zeitlicher Perturbation und Lernstabilisierung

SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization

papers.abstract

Support