SeFAR: Reconocimiento de Acciones de Granularidad Fina Semi-supervisado con Perturbación Temporal y Estabilización del Aprendizaje
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
January 2, 2025
Autores: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI
Resumen
La comprensión de la acción humana es crucial para el avance de los sistemas multimodales. Si bien los desarrollos recientes, impulsados por potentes modelos de lenguaje grandes (LLMs), buscan ser lo suficientemente generales para cubrir una amplia gama de categorías, a menudo pasan por alto la necesidad de capacidades más específicas. En este trabajo, abordamos la tarea más desafiante de Reconocimiento de Acciones Detallado (FAR), que se enfoca en etiquetas semánticas detalladas dentro de una duración temporal más corta (por ejemplo, "salto hacia atrás con 1 giro"). Dados los altos costos de anotar etiquetas detalladas y la gran cantidad de datos necesarios para el ajuste fino de LLMs, proponemos adoptar el aprendizaje semi-supervisado (SSL). Nuestro marco, SeFAR, incorpora varios diseños innovadores para abordar estos desafíos. Específicamente, para capturar detalles visuales suficientes, construimos elementos temporales de doble nivel como representaciones más efectivas, sobre los cuales diseñamos una nueva estrategia de aumento sólida para el paradigma de aprendizaje Maestro-Alumno mediante la inclusión de perturbaciones temporales moderadas. Además, para manejar la alta incertidumbre dentro de las predicciones del modelo maestro para FAR, proponemos la Regulación Adaptativa para estabilizar el proceso de aprendizaje. Los experimentos muestran que SeFAR logra un rendimiento de vanguardia en dos conjuntos de datos de FAR, FineGym y FineDiving, en varios ámbitos de datos. También supera a otros métodos semi-supervisados en dos conjuntos de datos clásicos de grano grueso, UCF101 y HMDB51. Estudios adicionales y de ablación validan la efectividad de nuestros diseños. Además, demostramos que las características extraídas por nuestro SeFAR podrían promover en gran medida la capacidad de los modelos de base multimodales para comprender semánticas detalladas y específicas de dominio.
English
Human action understanding is crucial for the advancement of multimodal
systems. While recent developments, driven by powerful large language models
(LLMs), aim to be general enough to cover a wide range of categories, they
often overlook the need for more specific capabilities. In this work, we
address the more challenging task of Fine-grained Action Recognition (FAR),
which focuses on detailed semantic labels within shorter temporal duration
(e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating
fine-grained labels and the substantial data needed for fine-tuning LLMs, we
propose to adopt semi-supervised learning (SSL). Our framework, SeFAR,
incorporates several innovative designs to tackle these challenges.
Specifically, to capture sufficient visual details, we construct Dual-level
temporal elements as more effective representations, based on which we design a
new strong augmentation strategy for the Teacher-Student learning paradigm
through involving moderate temporal perturbation. Furthermore, to handle the
high uncertainty within the teacher model's predictions for FAR, we propose the
Adaptive Regulation to stabilize the learning process. Experiments show that
SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and
FineDiving, across various data scopes. It also outperforms other
semi-supervised methods on two classical coarse-grained datasets, UCF101 and
HMDB51. Further analysis and ablation studies validate the effectiveness of our
designs. Additionally, we show that the features extracted by our SeFAR could
largely promote the ability of multimodal foundation models to understand
fine-grained and domain-specific semantics.Summary
AI-Generated Summary