ChatPaper.aiChatPaper

MotionLLM: Понимание человеческих поведенческих черт по движениям человека и видеозаписям

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30, 2024
Авторы: Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang
cs.AI

Аннотация

Данное исследование затрагивает область понимания человеческого поведения с использованием мульти-модальности (т.е. видео и модальности движения) с помощью мощных возможностей Больших Языковых Моделей (LLM). Отличаясь от недавних LLM, разработанных для понимания только видео или только движения, мы утверждаем, что понимание человеческого поведения требует совместного моделирования как видео, так и последовательностей движения (например, последовательностей SMPL), чтобы эффективно уловить тонкую динамику и семантику частей тела. В свете этого мы представляем MotionLLM, простую, но эффективную структуру для понимания, описания и рассуждения о человеческом движении. Конкретно, MotionLLM принимает унифицированную стратегию обучения видео-движение, использующую дополняющие преимущества существующих грубых видео-текстовых данных и мелкозернистых движение-текстовых данных для извлечения богатых пространственно-временных идей. Кроме того, мы собрали обширный набор данных, MoVid, включающий разнообразные видео, движения, описания и инструкции. Дополнительно мы предлагаем MoVid-Bench с тщательными ручными аннотациями для более качественной оценки понимания человеческого поведения на видео и в движении. Обширные эксперименты показывают превосходство MotionLLM в описании, пространственно-временном понимании и способности к рассуждениям.
English
This study delves into the realm of multi-modality (i.e., video and motion modalities) human behavior understanding by leveraging the powerful capabilities of Large Language Models (LLMs). Diverging from recent LLMs designed for video-only or motion-only understanding, we argue that understanding human behavior necessitates joint modeling from both videos and motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics and semantics effectively. In light of this, we present MotionLLM, a straightforward yet effective framework for human motion understanding, captioning, and reasoning. Specifically, MotionLLM adopts a unified video-motion training strategy that leverages the complementary advantages of existing coarse video-text data and fine-grained motion-text data to glean rich spatial-temporal insights. Furthermore, we collect a substantial dataset, MoVid, comprising diverse videos, motions, captions, and instructions. Additionally, we propose the MoVid-Bench, with carefully manual annotations, for better evaluation of human behavior understanding on video and motion. Extensive experiments show the superiority of MotionLLM in the caption, spatial-temporal comprehension, and reasoning ability.

Summary

AI-Generated Summary

PDF218December 12, 2024