LLaVAction: evaluación y entrenamiento de modelos de lenguaje multimodal de gran escala para el reconocimiento de acciones

Resumen

Comprender el comportamiento humano requiere medir las acciones conductuales. Debido a su complejidad, el comportamiento se mapea mejor en una estructura semántica rica, como el lenguaje. El reciente desarrollo de modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) es un candidato prometedor para una amplia gama de tareas de comprensión de acciones. En este trabajo, nos enfocamos en evaluar y luego mejorar los MLLMs para realizar reconocimiento de acciones. Reformulamos EPIC-KITCHENS-100, uno de los conjuntos de datos de acciones egocéntricas más grandes y desafiantes, en la forma de preguntas múltiples sobre videos (EPIC-KITCHENS-100-MQA). Demostramos que, cuando se muestran respuestas incorrectas difíciles como distractores, los MLLMs líderes tienen dificultades para reconocer las acciones correctas. Proponemos una serie de métodos que mejoran significativamente la capacidad de los MLLMs para realizar reconocimiento de acciones, logrando un rendimiento de vanguardia tanto en el conjunto de validación de EPIC-KITCHENS-100 como superando a GPT-4o por 21 puntos en precisión en EPIC-KITCHENS-100-MQA. Por último, mostramos mejoras en otros puntos de referencia de video relacionados con acciones, como EgoSchema, PerceptionTest, LongVideoBench, VideoMME y MVBench, lo que sugiere que los MLLMs son un camino prometedor para tareas de acciones complejas. El código y los modelos están disponibles en: https://github.com/AdaptiveMotorControlLab/LLaVAction.

English

Understanding human behavior requires measuring behavioral actions. Due to its complexity, behavior is best mapped onto a rich, semantic structure such as language. The recent development of multi-modal large language models (MLLMs) is a promising candidate for a wide range of action understanding tasks. In this work, we focus on evaluating and then improving MLLMs to perform action recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most challenging egocentric action datasets, to the form of video multiple question answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult incorrect answers as distractors, leading MLLMs struggle to recognize the correct actions. We propose a series of methods that greatly improve the MLLMs' ability to perform action recognition, achieving state-of-the-art on both the EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other action-related video benchmarks such as EgoSchema, PerceptionTest, LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising path forward for complex action tasks. Code and models are available at: https://github.com/AdaptiveMotorControlLab/LLaVAction.

LLaVAction: evaluación y entrenamiento de modelos de lenguaje multimodal de gran escala para el reconocimiento de acciones

LLaVAction: evaluating and training multi-modal large language models for action recognition

Resumen

Support