LLaVAction: 행동 인식을 위한 다중 모달 대규모 언어 모델 평가 및 훈련
LLaVAction: evaluating and training multi-modal large language models for action recognition
March 24, 2025
저자: Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
cs.AI
초록
인간 행동을 이해하기 위해서는 행동적 동작을 측정해야 합니다. 행동의 복잡성으로 인해, 이를 언어와 같은 풍부한 의미 구조에 매핑하는 것이 가장 적합합니다. 최근 다중 모드 대형 언어 모델(MLLMs)의 발전은 다양한 행동 이해 작업에 있어 유망한 후보로 떠오르고 있습니다. 본 연구에서는 MLLMs의 행동 인식 능력을 평가하고 개선하는 데 초점을 맞춥니다. 우리는 가장 크고 도전적인 에고센트릭 행동 데이터셋 중 하나인 EPIC-KITCHENS-100을 비디오 다중 질문 응답(EPIC-KITCHENS-100-MQA) 형태로 재구성했습니다. 어려운 오답을 방해 요소로 샘플링할 경우, 주요 MLLMs가 올바른 행동을 인식하는 데 어려움을 겪는 것을 보여줍니다. 우리는 MLLMs의 행동 인식 능력을 크게 향상시키는 일련의 방법을 제안하며, EPIC-KITCHENS-100 검증 세트에서 최신 기술을 달성하고, EPIC-KITCHENS-100-MQA에서 GPT-4o를 21점 차이로 능가하는 정확도를 보여줍니다. 마지막으로, EgoSchema, PerceptionTest, LongVideoBench, VideoMME 및 MVBench와 같은 다른 행동 관련 비디오 벤치마크에서도 개선 사항을 보여주며, MLLMs가 복잡한 행동 작업에 있어 유망한 방향임을 시사합니다. 코드와 모델은 https://github.com/AdaptiveMotorControlLab/LLaVAction에서 확인할 수 있습니다.
English
Understanding human behavior requires measuring behavioral actions. Due to
its complexity, behavior is best mapped onto a rich, semantic structure such as
language. The recent development of multi-modal large language models (MLLMs)
is a promising candidate for a wide range of action understanding tasks. In
this work, we focus on evaluating and then improving MLLMs to perform action
recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most
challenging egocentric action datasets, to the form of video multiple question
answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult
incorrect answers as distractors, leading MLLMs struggle to recognize the
correct actions. We propose a series of methods that greatly improve the MLLMs'
ability to perform action recognition, achieving state-of-the-art on both the
EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points
in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other
action-related video benchmarks such as EgoSchema, PerceptionTest,
LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising
path forward for complex action tasks. Code and models are available at:
https://github.com/AdaptiveMotorControlLab/LLaVAction.Summary
AI-Generated Summary