MotionLLM: 인간 동작과 비디오를 통해 인간 행동 이해하기
MotionLLM: Understanding Human Behaviors from Human Motions and Videos
May 30, 2024
저자: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI
초록
본 연구는 대형 언어 모델(LLMs)의 강력한 능력을 활용하여 다중 모달리티(즉, 비디오 및 동작 모달리티) 인간 행동 이해의 영역을 탐구합니다. 최근의 비디오 전용 또는 동작 전용 이해를 위해 설계된 LLMs와는 달리, 우리는 인간 행동을 이해하기 위해서는 비디오와 동작 시퀀스(예: SMPL 시퀀스)의 공동 모델링이 필요하며, 이를 통해 미묘한 신체 부위의 동역학과 의미론을 효과적으로 포착할 수 있다고 주장합니다. 이를 바탕으로, 우리는 인간 동작 이해, 캡션 생성 및 추론을 위한 간단하지만 효과적인 프레임워크인 MotionLLM을 제시합니다. 구체적으로, MotionLLM은 기존의 거친 비디오-텍스트 데이터와 세밀한 동작-텍스트 데이터의 상호 보완적 장점을 활용하여 풍부한 시공간적 통찰력을 얻는 통합 비디오-동작 학습 전략을 채택합니다. 또한, 우리는 다양한 비디오, 동작, 캡션 및 지침으로 구성된 대규모 데이터셋인 MoVid를 수집했습니다. 더 나아가, 비디오와 동작에 대한 인간 행동 이해를 더 잘 평가하기 위해 신중하게 수작업으로 주석을 달은 MoVid-Bench를 제안합니다. 광범위한 실험을 통해 MotionLLM이 캡션, 시공간적 이해 및 추론 능력에서 우수성을 보여줌을 입증했습니다.
English
This study delves into the realm of multi-modality (i.e., video and motion
modalities) human behavior understanding by leveraging the powerful
capabilities of Large Language Models (LLMs). Diverging from recent LLMs
designed for video-only or motion-only understanding, we argue that
understanding human behavior necessitates joint modeling from both videos and
motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics
and semantics effectively. In light of this, we present MotionLLM, a
straightforward yet effective framework for human motion understanding,
captioning, and reasoning. Specifically, MotionLLM adopts a unified
video-motion training strategy that leverages the complementary advantages of
existing coarse video-text data and fine-grained motion-text data to glean rich
spatial-temporal insights. Furthermore, we collect a substantial dataset,
MoVid, comprising diverse videos, motions, captions, and instructions.
Additionally, we propose the MoVid-Bench, with carefully manual annotations,
for better evaluation of human behavior understanding on video and motion.
Extensive experiments show the superiority of MotionLLM in the caption,
spatial-temporal comprehension, and reasoning ability.Summary
AI-Generated Summary