MotionLLM: Compreendendo Comportamentos Humanos a partir de Movimentos e Vídeos Humanos
MotionLLM: Understanding Human Behaviors from Human Motions and Videos
May 30, 2024
Autores: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI
Resumo
Este estudo adentra o domínio da compreensão multimodal (ou seja, vídeo e movimento) do comportamento humano, aproveitando as poderosas capacidades dos Modelos de Linguagem de Grande Escala (LLMs). Diferentemente dos LLMs recentes projetados para compreensão apenas de vídeo ou apenas de movimento, argumentamos que a compreensão do comportamento humano exige a modelagem conjunta de vídeos e sequências de movimento (por exemplo, sequências SMPL) para capturar efetivamente a dinâmica e a semântica detalhada das partes do corpo. Diante disso, apresentamos o MotionLLM, uma estrutura simples, porém eficaz, para compreensão, legendagem e raciocínio sobre movimentos humanos. Especificamente, o MotionLLM adota uma estratégia unificada de treinamento vídeo-movimento que aproveita as vantagens complementares dos dados existentes de texto-vídeo grosseiros e dos dados de texto-movimento refinados para obter insights espaço-temporais ricos. Além disso, coletamos um conjunto de dados substancial, o MoVid, composto por diversos vídeos, movimentos, legendas e instruções. Adicionalmente, propomos o MoVid-Bench, com anotações manuais cuidadosas, para uma melhor avaliação da compreensão do comportamento humano em vídeo e movimento. Experimentos extensivos mostram a superioridade do MotionLLM em legendagem, compreensão espaço-temporal e capacidade de raciocínio.
English
This study delves into the realm of multi-modality (i.e., video and motion
modalities) human behavior understanding by leveraging the powerful
capabilities of Large Language Models (LLMs). Diverging from recent LLMs
designed for video-only or motion-only understanding, we argue that
understanding human behavior necessitates joint modeling from both videos and
motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics
and semantics effectively. In light of this, we present MotionLLM, a
straightforward yet effective framework for human motion understanding,
captioning, and reasoning. Specifically, MotionLLM adopts a unified
video-motion training strategy that leverages the complementary advantages of
existing coarse video-text data and fine-grained motion-text data to glean rich
spatial-temporal insights. Furthermore, we collect a substantial dataset,
MoVid, comprising diverse videos, motions, captions, and instructions.
Additionally, we propose the MoVid-Bench, with carefully manual annotations,
for better evaluation of human behavior understanding on video and motion.
Extensive experiments show the superiority of MotionLLM in the caption,
spatial-temporal comprehension, and reasoning ability.