LLaVAction: оценка и обучение мультимодальных больших языковых моделей для распознавания действий

Аннотация

Понимание человеческого поведения требует измерения поведенческих действий. Ввиду своей сложности, поведение лучше всего отображать на богатую семантическую структуру, такую как язык. Недавнее развитие мультимодальных больших языковых моделей (MLLMs) представляет собой многообещающий подход для широкого спектра задач понимания действий. В данной работе мы сосредоточились на оценке и последующем улучшении MLLMs для выполнения задач распознавания действий. Мы переформулировали EPIC-KITCHENS-100, один из крупнейших и наиболее сложных наборов данных эгоцентричных действий, в форму множественного видео-вопроса (EPIC-KITCHENS-100-MQA). Мы показываем, что при использовании сложных неправильных ответов в качестве отвлекающих факторов, ведущие MLLMs испытывают трудности с распознаванием правильных действий. Мы предлагаем ряд методов, которые значительно улучшают способность MLLMs выполнять распознавание действий, достигая наилучших результатов на валидационном наборе EPIC-KITCHENS-100, а также превосходя GPT-4o на 21 процентный пункт по точности на EPIC-KITCHENS-100-MQA. Наконец, мы демонстрируем улучшения на других видео-бенчмарках, связанных с действиями, таких как EgoSchema, PerceptionTest, LongVideoBench, VideoMME и MVBench, что свидетельствует о перспективности MLLMs для сложных задач, связанных с действиями. Код и модели доступны по адресу: https://github.com/AdaptiveMotorControlLab/LLaVAction.

English

Understanding human behavior requires measuring behavioral actions. Due to its complexity, behavior is best mapped onto a rich, semantic structure such as language. The recent development of multi-modal large language models (MLLMs) is a promising candidate for a wide range of action understanding tasks. In this work, we focus on evaluating and then improving MLLMs to perform action recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most challenging egocentric action datasets, to the form of video multiple question answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult incorrect answers as distractors, leading MLLMs struggle to recognize the correct actions. We propose a series of methods that greatly improve the MLLMs' ability to perform action recognition, achieving state-of-the-art on both the EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other action-related video benchmarks such as EgoSchema, PerceptionTest, LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising path forward for complex action tasks. Code and models are available at: https://github.com/AdaptiveMotorControlLab/LLaVAction.

LLaVAction: оценка и обучение мультимодальных больших языковых моделей для распознавания действий

LLaVAction: evaluating and training multi-modal large language models for action recognition

Аннотация

Support