ChatPaper.aiChatPaper

LLaVAction : évaluation et entraînement de modèles de langage multi-modaux de grande taille pour la reconnaissance d'actions

LLaVAction: evaluating and training multi-modal large language models for action recognition

March 24, 2025
Auteurs: Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
cs.AI

Résumé

Comprendre le comportement humain nécessite de mesurer les actions comportementales. En raison de sa complexité, le comportement est mieux représenté par une structure sémantique riche, telle que le langage. Le développement récent des modèles de langage multi-modaux de grande taille (MLLMs) constitue un candidat prometteur pour une large gamme de tâches de compréhension des actions. Dans ce travail, nous nous concentrons sur l'évaluation puis l'amélioration des MLLMs pour effectuer la reconnaissance d'actions. Nous reformulons EPIC-KITCHENS-100, l'un des plus grands et des plus complexes ensembles de données d'actions égocentriques, sous la forme de questions multiples sur des vidéos (EPIC-KITCHENS-100-MQA). Nous montrons que lorsque nous sélectionnons des réponses incorrectes difficiles comme distracteurs, les MLLMs de pointe peinent à reconnaître les actions correctes. Nous proposons une série de méthodes qui améliorent considérablement la capacité des MLLMs à effectuer la reconnaissance d'actions, atteignant des performances de pointe sur l'ensemble de validation d'EPIC-KITCHENS-100, tout en surpassant GPT-4o de 21 points en précision sur EPIC-KITCHENS-100-MQA. Enfin, nous montrons des améliorations sur d'autres benchmarks vidéo liés aux actions tels que EgoSchema, PerceptionTest, LongVideoBench, VideoMME et MVBench, suggérant que les MLLMs constituent une voie prometteuse pour les tâches complexes d'actions. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/AdaptiveMotorControlLab/LLaVAction.
English
Understanding human behavior requires measuring behavioral actions. Due to its complexity, behavior is best mapped onto a rich, semantic structure such as language. The recent development of multi-modal large language models (MLLMs) is a promising candidate for a wide range of action understanding tasks. In this work, we focus on evaluating and then improving MLLMs to perform action recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most challenging egocentric action datasets, to the form of video multiple question answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult incorrect answers as distractors, leading MLLMs struggle to recognize the correct actions. We propose a series of methods that greatly improve the MLLMs' ability to perform action recognition, achieving state-of-the-art on both the EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other action-related video benchmarks such as EgoSchema, PerceptionTest, LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising path forward for complex action tasks. Code and models are available at: https://github.com/AdaptiveMotorControlLab/LLaVAction.

Summary

AI-Generated Summary

PDF32March 26, 2025