LLaVAction: evaluación y entrenamiento de modelos de lenguaje multimodal de gran escala para el reconocimiento de acciones
LLaVAction: evaluating and training multi-modal large language models for action recognition
March 24, 2025
Autores: Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
cs.AI
Resumen
Comprender el comportamiento humano requiere medir las acciones conductuales. Debido a su complejidad, el comportamiento se mapea mejor en una estructura semántica rica, como el lenguaje. El reciente desarrollo de modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) es un candidato prometedor para una amplia gama de tareas de comprensión de acciones. En este trabajo, nos enfocamos en evaluar y luego mejorar los MLLMs para realizar reconocimiento de acciones. Reformulamos EPIC-KITCHENS-100, uno de los conjuntos de datos de acciones egocéntricas más grandes y desafiantes, en la forma de preguntas múltiples sobre videos (EPIC-KITCHENS-100-MQA). Demostramos que, cuando se muestran respuestas incorrectas difíciles como distractores, los MLLMs líderes tienen dificultades para reconocer las acciones correctas. Proponemos una serie de métodos que mejoran significativamente la capacidad de los MLLMs para realizar reconocimiento de acciones, logrando un rendimiento de vanguardia tanto en el conjunto de validación de EPIC-KITCHENS-100 como superando a GPT-4o por 21 puntos en precisión en EPIC-KITCHENS-100-MQA. Por último, mostramos mejoras en otros puntos de referencia de video relacionados con acciones, como EgoSchema, PerceptionTest, LongVideoBench, VideoMME y MVBench, lo que sugiere que los MLLMs son un camino prometedor para tareas de acciones complejas. El código y los modelos están disponibles en: https://github.com/AdaptiveMotorControlLab/LLaVAction.
English
Understanding human behavior requires measuring behavioral actions. Due to
its complexity, behavior is best mapped onto a rich, semantic structure such as
language. The recent development of multi-modal large language models (MLLMs)
is a promising candidate for a wide range of action understanding tasks. In
this work, we focus on evaluating and then improving MLLMs to perform action
recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most
challenging egocentric action datasets, to the form of video multiple question
answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult
incorrect answers as distractors, leading MLLMs struggle to recognize the
correct actions. We propose a series of methods that greatly improve the MLLMs'
ability to perform action recognition, achieving state-of-the-art on both the
EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points
in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other
action-related video benchmarks such as EgoSchema, PerceptionTest,
LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising
path forward for complex action tasks. Code and models are available at:
https://github.com/AdaptiveMotorControlLab/LLaVAction.Summary
AI-Generated Summary