MotionLLM: Verständnis menschlichen Verhaltens aus menschlichen Bewegungen und Videos
MotionLLM: Understanding Human Behaviors from Human Motions and Videos
May 30, 2024
Autoren: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI
Zusammenfassung
Diese Studie taucht in den Bereich der Multi-Modalität (d.h. Video- und Bewegungsmodalitäten) der menschlichen Verhaltensanalyse ein, indem sie die leistungsstarken Fähigkeiten großer Sprachmodelle (LLMs) nutzt. Abweichend von kürzlich entwickelten LLMs, die ausschließlich für die Verständnis von Videos oder Bewegungen konzipiert wurden, argumentieren wir, dass das Verständnis menschlichen Verhaltens ein gemeinsames Modellieren von Videos und Bewegungssequenzen (z.B. SMPL-Sequenzen) erfordert, um die nuancierten Dynamiken und Semantiken der Körperteile effektiv zu erfassen. In diesem Zusammenhang präsentieren wir MotionLLM, ein einfaches, aber effektives Framework für das Verständnis, die Beschriftung und das Schlussfolgern menschlicher Bewegungen. Speziell übernimmt MotionLLM eine vereinheitlichte Video-Bewegungs-Trainingsstrategie, die die ergänzenden Vorteile vorhandener grober Video-Text-Daten und feingranularer Bewegungs-Text-Daten nutzt, um reiche räumlich-zeitliche Erkenntnisse zu gewinnen. Darüber hinaus sammeln wir einen umfangreichen Datensatz, MoVid, bestehend aus vielfältigen Videos, Bewegungen, Beschriftungen und Anweisungen. Zusätzlich schlagen wir MoVid-Bench vor, mit sorgfältig manuellen Anmerkungen, zur besseren Bewertung des Verständnisses menschlichen Verhaltens in Videos und Bewegungen. Umfangreiche Experimente zeigen die Überlegenheit von MotionLLM in der Beschriftung, räumlich-zeitlichen Erfassung und Schlussfolgerungsfähigkeit.
English
This study delves into the realm of multi-modality (i.e., video and motion
modalities) human behavior understanding by leveraging the powerful
capabilities of Large Language Models (LLMs). Diverging from recent LLMs
designed for video-only or motion-only understanding, we argue that
understanding human behavior necessitates joint modeling from both videos and
motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics
and semantics effectively. In light of this, we present MotionLLM, a
straightforward yet effective framework for human motion understanding,
captioning, and reasoning. Specifically, MotionLLM adopts a unified
video-motion training strategy that leverages the complementary advantages of
existing coarse video-text data and fine-grained motion-text data to glean rich
spatial-temporal insights. Furthermore, we collect a substantial dataset,
MoVid, comprising diverse videos, motions, captions, and instructions.
Additionally, we propose the MoVid-Bench, with carefully manual annotations,
for better evaluation of human behavior understanding on video and motion.
Extensive experiments show the superiority of MotionLLM in the caption,
spatial-temporal comprehension, and reasoning ability.Summary
AI-Generated Summary