ChatPaper.aiChatPaper

MotionLLM : Comprendre les comportements humains à partir des mouvements et des vidéos humains

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30, 2024
Auteurs: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI

Résumé

Cette étude explore le domaine de la compréhension du comportement humain multimodal (c'est-à-dire les modalités vidéo et mouvement) en exploitant les capacités puissantes des modèles de langage à grande échelle (LLMs). Contrairement aux récents LLMs conçus pour la compréhension de la vidéo ou du mouvement uniquement, nous soutenons que la compréhension du comportement humain nécessite une modélisation conjointe à partir des vidéos et des séquences de mouvement (par exemple, les séquences SMPL) pour capturer efficacement la dynamique et la sémantique nuancées des parties du corps. Dans cette optique, nous présentons MotionLLM, un cadre simple mais efficace pour la compréhension, la description et le raisonnement sur le mouvement humain. Plus précisément, MotionLLM adopte une stratégie d'entraînement unifiée vidéo-mouvement qui tire parti des avantages complémentaires des données existantes de type vidéo-texte grossières et des données de type mouvement-texte fines pour obtenir des insights spatio-temporels riches. En outre, nous avons collecté un ensemble de données substantiel, MoVid, comprenant des vidéos, des mouvements, des descriptions et des instructions variés. De plus, nous proposons le MoVid-Bench, avec des annotations manuelles soignées, pour une meilleure évaluation de la compréhension du comportement humain sur la vidéo et le mouvement. Des expériences approfondies montrent la supériorité de MotionLLM en termes de description, de compréhension spatio-temporelle et de capacité de raisonnement.
English
This study delves into the realm of multi-modality (i.e., video and motion modalities) human behavior understanding by leveraging the powerful capabilities of Large Language Models (LLMs). Diverging from recent LLMs designed for video-only or motion-only understanding, we argue that understanding human behavior necessitates joint modeling from both videos and motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics and semantics effectively. In light of this, we present MotionLLM, a straightforward yet effective framework for human motion understanding, captioning, and reasoning. Specifically, MotionLLM adopts a unified video-motion training strategy that leverages the complementary advantages of existing coarse video-text data and fine-grained motion-text data to glean rich spatial-temporal insights. Furthermore, we collect a substantial dataset, MoVid, comprising diverse videos, motions, captions, and instructions. Additionally, we propose the MoVid-Bench, with carefully manual annotations, for better evaluation of human behavior understanding on video and motion. Extensive experiments show the superiority of MotionLLM in the caption, spatial-temporal comprehension, and reasoning ability.

Summary

AI-Generated Summary

PDF218December 12, 2024