ChatPaper.aiChatPaper

MotionLLM: Comprensión de los Comportamientos Humanos a partir de Movimientos y Videos Humanos

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30, 2024
Autores: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI

Resumen

Este estudio profundiza en el ámbito de la comprensión multimodal (es decir, modalidades de video y movimiento) del comportamiento humano, aprovechando las potentes capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A diferencia de los LLMs recientes diseñados para la comprensión exclusiva de video o movimiento, argumentamos que entender el comportamiento humano requiere un modelado conjunto tanto de videos como de secuencias de movimiento (por ejemplo, secuencias SMPL) para capturar de manera efectiva la dinámica y la semántica detallada de las partes del cuerpo. En este contexto, presentamos MotionLLM, un marco sencillo pero efectivo para la comprensión, descripción y razonamiento del movimiento humano. Específicamente, MotionLLM adopta una estrategia de entrenamiento unificada de video-movimiento que aprovecha las ventajas complementarias de los datos existentes de texto-video de nivel grueso y los datos de texto-movimiento de nivel fino para obtener insights ricos en espacio-tiempo. Además, recopilamos un conjunto de datos sustancial, MoVid, que incluye videos, movimientos, descripciones e instrucciones diversos. Adicionalmente, proponemos el MoVid-Bench, con anotaciones manuales cuidadosas, para una mejor evaluación de la comprensión del comportamiento humano en video y movimiento. Experimentos extensos demuestran la superioridad de MotionLLM en la descripción, la comprensión espacio-temporal y la capacidad de razonamiento.
English
This study delves into the realm of multi-modality (i.e., video and motion modalities) human behavior understanding by leveraging the powerful capabilities of Large Language Models (LLMs). Diverging from recent LLMs designed for video-only or motion-only understanding, we argue that understanding human behavior necessitates joint modeling from both videos and motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics and semantics effectively. In light of this, we present MotionLLM, a straightforward yet effective framework for human motion understanding, captioning, and reasoning. Specifically, MotionLLM adopts a unified video-motion training strategy that leverages the complementary advantages of existing coarse video-text data and fine-grained motion-text data to glean rich spatial-temporal insights. Furthermore, we collect a substantial dataset, MoVid, comprising diverse videos, motions, captions, and instructions. Additionally, we propose the MoVid-Bench, with carefully manual annotations, for better evaluation of human behavior understanding on video and motion. Extensive experiments show the superiority of MotionLLM in the caption, spatial-temporal comprehension, and reasoning ability.

Summary

AI-Generated Summary

PDF218December 12, 2024