MotionLLM: 人間の動作と映像から人間の行動を理解する
MotionLLM: Understanding Human Behaviors from Human Motions and Videos
May 30, 2024
著者: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI
要旨
本研究は、大規模言語モデル(LLMs)の強力な能力を活用して、マルチモダリティ(すなわち、ビデオとモーションのモダリティ)における人間の行動理解の領域に深く踏み込むものである。最近のビデオのみまたはモーションのみを理解するために設計されたLLMsとは異なり、人間の行動を理解するためには、ビデオとモーションシーケンス(例えば、SMPLシーケンス)の両方からの共同モデリングが必要であり、これにより身体部位の動的かつ意味的なニュアンスを効果的に捉えることができると主張する。この観点から、人間のモーション理解、キャプション生成、および推論のためのシンプルでありながら効果的なフレームワークであるMotionLLMを提案する。具体的には、MotionLLMは、既存の粗いビデオ-テキストデータと細かいモーション-テキストデータの相補的な利点を活用して、豊かな時空間的洞察を得るための統一されたビデオ-モーショントレーニング戦略を採用している。さらに、多様なビデオ、モーション、キャプション、および指示を含む大規模なデータセットMoVidを収集した。加えて、ビデオとモーションにおける人間の行動理解をより適切に評価するために、慎重に手動でアノテーションされたMoVid-Benchを提案する。広範な実験により、MotionLLMがキャプション生成、時空間的理解、および推論能力において優れていることが示された。
English
This study delves into the realm of multi-modality (i.e., video and motion
modalities) human behavior understanding by leveraging the powerful
capabilities of Large Language Models (LLMs). Diverging from recent LLMs
designed for video-only or motion-only understanding, we argue that
understanding human behavior necessitates joint modeling from both videos and
motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics
and semantics effectively. In light of this, we present MotionLLM, a
straightforward yet effective framework for human motion understanding,
captioning, and reasoning. Specifically, MotionLLM adopts a unified
video-motion training strategy that leverages the complementary advantages of
existing coarse video-text data and fine-grained motion-text data to glean rich
spatial-temporal insights. Furthermore, we collect a substantial dataset,
MoVid, comprising diverse videos, motions, captions, and instructions.
Additionally, we propose the MoVid-Bench, with carefully manual annotations,
for better evaluation of human behavior understanding on video and motion.
Extensive experiments show the superiority of MotionLLM in the caption,
spatial-temporal comprehension, and reasoning ability.Summary
AI-Generated Summary