ChatPaper.aiChatPaper

MotionLLM: Comprendere i comportamenti umani dai movimenti e dai video delle persone

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30, 2024
Autori: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI

Abstract

Questo studio approfondisce il campo della comprensione del comportamento umano in contesti multi-modali (ovvero, modalità video e di movimento), sfruttando le potenti capacità dei Large Language Models (LLM). Diversamente dai recenti LLM progettati per la comprensione esclusiva di video o movimento, sosteniamo che la comprensione del comportamento umano richieda una modellizzazione congiunta sia dei video che delle sequenze di movimento (ad esempio, sequenze SMPL) per catturare efficacemente le dinamiche e la semantica delle parti del corpo. Alla luce di ciò, presentiamo MotionLLM, un framework semplice ma efficace per la comprensione, la descrizione e il ragionamento sul movimento umano. Nello specifico, MotionLLM adotta una strategia di addestramento unificata video-movimento che sfrutta i vantaggi complementari dei dati esistenti video-testo di livello grossolano e dei dati movimento-testo di livello fine per ottenere approfondimenti spazio-temporali ricchi. Inoltre, abbiamo raccolto un ampio dataset, MoVid, che comprende video, movimenti, descrizioni e istruzioni diversificati. Proponiamo inoltre il MoVid-Bench, con annotazioni manuali accurate, per una migliore valutazione della comprensione del comportamento umano su video e movimento. Esperimenti estesi dimostrano la superiorità di MotionLLM nella descrizione, nella comprensione spazio-temporale e nella capacità di ragionamento.
English
This study delves into the realm of multi-modality (i.e., video and motion modalities) human behavior understanding by leveraging the powerful capabilities of Large Language Models (LLMs). Diverging from recent LLMs designed for video-only or motion-only understanding, we argue that understanding human behavior necessitates joint modeling from both videos and motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics and semantics effectively. In light of this, we present MotionLLM, a straightforward yet effective framework for human motion understanding, captioning, and reasoning. Specifically, MotionLLM adopts a unified video-motion training strategy that leverages the complementary advantages of existing coarse video-text data and fine-grained motion-text data to glean rich spatial-temporal insights. Furthermore, we collect a substantial dataset, MoVid, comprising diverse videos, motions, captions, and instructions. Additionally, we propose the MoVid-Bench, with carefully manual annotations, for better evaluation of human behavior understanding on video and motion. Extensive experiments show the superiority of MotionLLM in the caption, spatial-temporal comprehension, and reasoning ability.
PDF208February 8, 2026