LLaVAction: оценка и обучение мультимодальных больших языковых моделей для распознавания действий
LLaVAction: evaluating and training multi-modal large language models for action recognition
March 24, 2025
Авторы: Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
cs.AI
Аннотация
Понимание человеческого поведения требует измерения поведенческих действий. Ввиду своей сложности, поведение лучше всего отображать на богатую семантическую структуру, такую как язык. Недавнее развитие мультимодальных больших языковых моделей (MLLMs) представляет собой многообещающий подход для широкого спектра задач понимания действий. В данной работе мы сосредоточились на оценке и последующем улучшении MLLMs для выполнения задач распознавания действий. Мы переформулировали EPIC-KITCHENS-100, один из крупнейших и наиболее сложных наборов данных эгоцентричных действий, в форму множественного видео-вопроса (EPIC-KITCHENS-100-MQA). Мы показываем, что при использовании сложных неправильных ответов в качестве отвлекающих факторов, ведущие MLLMs испытывают трудности с распознаванием правильных действий. Мы предлагаем ряд методов, которые значительно улучшают способность MLLMs выполнять распознавание действий, достигая наилучших результатов на валидационном наборе EPIC-KITCHENS-100, а также превосходя GPT-4o на 21 процентный пункт по точности на EPIC-KITCHENS-100-MQA. Наконец, мы демонстрируем улучшения на других видео-бенчмарках, связанных с действиями, таких как EgoSchema, PerceptionTest, LongVideoBench, VideoMME и MVBench, что свидетельствует о перспективности MLLMs для сложных задач, связанных с действиями. Код и модели доступны по адресу: https://github.com/AdaptiveMotorControlLab/LLaVAction.
English
Understanding human behavior requires measuring behavioral actions. Due to
its complexity, behavior is best mapped onto a rich, semantic structure such as
language. The recent development of multi-modal large language models (MLLMs)
is a promising candidate for a wide range of action understanding tasks. In
this work, we focus on evaluating and then improving MLLMs to perform action
recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most
challenging egocentric action datasets, to the form of video multiple question
answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult
incorrect answers as distractors, leading MLLMs struggle to recognize the
correct actions. We propose a series of methods that greatly improve the MLLMs'
ability to perform action recognition, achieving state-of-the-art on both the
EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points
in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other
action-related video benchmarks such as EgoSchema, PerceptionTest,
LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising
path forward for complex action tasks. Code and models are available at:
https://github.com/AdaptiveMotorControlLab/LLaVAction.Summary
AI-Generated Summary