LLaVAction : évaluation et entraînement de modèles de langage multi-modaux de grande taille pour la reconnaissance d'actions
LLaVAction: evaluating and training multi-modal large language models for action recognition
March 24, 2025
Auteurs: Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
cs.AI
Résumé
Comprendre le comportement humain nécessite de mesurer les actions comportementales. En raison de sa complexité, le comportement est mieux représenté par une structure sémantique riche, telle que le langage. Le développement récent des modèles de langage multi-modaux de grande taille (MLLMs) constitue un candidat prometteur pour une large gamme de tâches de compréhension des actions. Dans ce travail, nous nous concentrons sur l'évaluation puis l'amélioration des MLLMs pour effectuer la reconnaissance d'actions. Nous reformulons EPIC-KITCHENS-100, l'un des plus grands et des plus complexes ensembles de données d'actions égocentriques, sous la forme de questions multiples sur des vidéos (EPIC-KITCHENS-100-MQA). Nous montrons que lorsque nous sélectionnons des réponses incorrectes difficiles comme distracteurs, les MLLMs de pointe peinent à reconnaître les actions correctes. Nous proposons une série de méthodes qui améliorent considérablement la capacité des MLLMs à effectuer la reconnaissance d'actions, atteignant des performances de pointe sur l'ensemble de validation d'EPIC-KITCHENS-100, tout en surpassant GPT-4o de 21 points en précision sur EPIC-KITCHENS-100-MQA. Enfin, nous montrons des améliorations sur d'autres benchmarks vidéo liés aux actions tels que EgoSchema, PerceptionTest, LongVideoBench, VideoMME et MVBench, suggérant que les MLLMs constituent une voie prometteuse pour les tâches complexes d'actions. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/AdaptiveMotorControlLab/LLaVAction.
English
Understanding human behavior requires measuring behavioral actions. Due to
its complexity, behavior is best mapped onto a rich, semantic structure such as
language. The recent development of multi-modal large language models (MLLMs)
is a promising candidate for a wide range of action understanding tasks. In
this work, we focus on evaluating and then improving MLLMs to perform action
recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most
challenging egocentric action datasets, to the form of video multiple question
answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult
incorrect answers as distractors, leading MLLMs struggle to recognize the
correct actions. We propose a series of methods that greatly improve the MLLMs'
ability to perform action recognition, achieving state-of-the-art on both the
EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points
in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other
action-related video benchmarks such as EgoSchema, PerceptionTest,
LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising
path forward for complex action tasks. Code and models are available at:
https://github.com/AdaptiveMotorControlLab/LLaVAction.Summary
AI-Generated Summary