LLaVAction: evaluatie en training van multimodale grote taalmodellen voor actieherkenning
LLaVAction: evaluating and training multi-modal large language models for action recognition
March 24, 2025
Auteurs: Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
cs.AI
Samenvatting
Het begrijpen van menselijk gedrag vereist het meten van gedragsacties. Vanwege de complexiteit ervan, wordt gedrag het best in kaart gebracht op een rijke, semantische structuur zoals taal. De recente ontwikkeling van multi-modale grote taalmodellen (MLLMs) is een veelbelovende kandidaat voor een breed scala aan taken op het gebied van actiebegrip. In dit werk richten we ons op het evalueren en vervolgens verbeteren van MLLMs om actieherkenning uit te voeren. We herformuleren EPIC-KITCHENS-100, een van de grootste en meest uitdagende egocentrische actiedatasets, naar de vorm van video multiple question answering (EPIC-KITCHENS-100-MQA). We laten zien dat wanneer we moeilijke incorrecte antwoorden als afleiders selecteren, toonaangevende MLLMs moeite hebben om de juiste acties te herkennen. We stellen een reeks methoden voor die het vermogen van MLLMs om actieherkenning uit te voeren aanzienlijk verbeteren, wat resulteert in state-of-the-art prestaties op zowel de EPIC-KITCHENS-100 validatieset, als het overtreffen van GPT-4o met 21 punten in nauwkeurigheid op EPIC-KITCHENS-100-MQA. Tot slot laten we verbeteringen zien op andere actiegerelateerde videobenchmarks zoals EgoSchema, PerceptionTest, LongVideoBench, VideoMME en MVBench, wat suggereert dat MLLMs een veelbelovende weg voorwaarts zijn voor complexe actietaken. Code en modellen zijn beschikbaar op: https://github.com/AdaptiveMotorControlLab/LLaVAction.
English
Understanding human behavior requires measuring behavioral actions. Due to
its complexity, behavior is best mapped onto a rich, semantic structure such as
language. The recent development of multi-modal large language models (MLLMs)
is a promising candidate for a wide range of action understanding tasks. In
this work, we focus on evaluating and then improving MLLMs to perform action
recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most
challenging egocentric action datasets, to the form of video multiple question
answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult
incorrect answers as distractors, leading MLLMs struggle to recognize the
correct actions. We propose a series of methods that greatly improve the MLLMs'
ability to perform action recognition, achieving state-of-the-art on both the
EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points
in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other
action-related video benchmarks such as EgoSchema, PerceptionTest,
LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising
path forward for complex action tasks. Code and models are available at:
https://github.com/AdaptiveMotorControlLab/LLaVAction.Summary
AI-Generated Summary