ChatPaper.aiChatPaper

MotionLLM: Het Begrijpen van Menselijk Gedrag vanuit Menselijke Bewegingen en Video's

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30, 2024
Auteurs: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI

Samenvatting

Dit onderzoek duikt in het domein van multi-modaliteit (d.w.z. video- en bewegingsmodaliteiten) voor het begrijpen van menselijk gedrag door gebruik te maken van de krachtige mogelijkheden van Large Language Models (LLMs). In tegenstelling tot recente LLMs die zijn ontworpen voor alleen video- of alleen bewegingsbegrip, stellen wij dat het begrijpen van menselijk gedrag gezamenlijke modellering vereist van zowel video's als bewegingssequenties (bijv. SMPL-sequenties) om de dynamiek en semantiek van lichaamsdelen effectief vast te leggen. In dit licht presenteren wij MotionLLM, een eenvoudig maar effectief raamwerk voor het begrijpen, beschrijven en redeneren over menselijke bewegingen. Specifiek hanteert MotionLLM een geïntegreerde video-bewegingstrainingstrategie die gebruikmaakt van de complementaire voordelen van bestaande grove video-tekstgegevens en fijnmazige beweging-tekstgegevens om rijke ruimtelijk-temporele inzichten te verkrijgen. Bovendien hebben wij een omvangrijke dataset, MoVid, samengesteld die diverse video's, bewegingen, bijschriften en instructies bevat. Daarnaast stellen wij de MoVid-Bench voor, met zorgvuldig handmatige annotaties, voor een betere evaluatie van het begrip van menselijk gedrag op basis van video en beweging. Uitgebreide experimenten tonen de superioriteit van MotionLLM aan op het gebied van bijschriften, ruimtelijk-temporeel begrip en redeneervermogen.
English
This study delves into the realm of multi-modality (i.e., video and motion modalities) human behavior understanding by leveraging the powerful capabilities of Large Language Models (LLMs). Diverging from recent LLMs designed for video-only or motion-only understanding, we argue that understanding human behavior necessitates joint modeling from both videos and motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics and semantics effectively. In light of this, we present MotionLLM, a straightforward yet effective framework for human motion understanding, captioning, and reasoning. Specifically, MotionLLM adopts a unified video-motion training strategy that leverages the complementary advantages of existing coarse video-text data and fine-grained motion-text data to glean rich spatial-temporal insights. Furthermore, we collect a substantial dataset, MoVid, comprising diverse videos, motions, captions, and instructions. Additionally, we propose the MoVid-Bench, with carefully manual annotations, for better evaluation of human behavior understanding on video and motion. Extensive experiments show the superiority of MotionLLM in the caption, spatial-temporal comprehension, and reasoning ability.
PDF208February 8, 2026