高密度モーションキャプショニング
Dense Motion Captioning
November 7, 2025
著者: Shiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota
cs.AI
要旨
3次元人体モーションと言語の統合における最近の進歩は、テキストからモーションへの生成に主眼が置かれており、モーション理解の課題は比較的未開拓のままである。本論文では、3次元人体モーションシーケンス内の動作を時間的に位置特定し説明することを目的とする新規タスク「高密度モーションキャプション生成(Dense Motion Captioning)」を提案する。現在利用可能なデータセットは、詳細な時間的アノテーションを提供しておらず、また少数の動作からなる短いシーケンスが主流である。これらの限界を克服するため、精密な時間的境界を有する、詳細に注釈付けされた複雑なモーションシーケンスを特徴とする初の大規模データセット「Complex Motion Dataset (CompMo)」を提示する。注意深く設計されたデータ生成パイプラインを通じて構築されたCompMoは、60,000のモーションシーケンスを含み、各シーケンスは少なくとも2つから10個までの複数の動作で構成され、それぞれの時間的範囲が正確に注釈付けされている。さらに、大規模言語モデルとシンプルなモーションアダプターを統合し、時間的に接地された高密度のキャプションを生成するように訓練されたモデル「DEMO」を提示する。実験結果により、DEMOがCompMoおよび適応されたベンチマークにおいて既存手法を大幅に上回り、3次元モーション理解とキャプション生成の将来の研究に対する堅牢なベースラインを確立することが示された。
English
Recent advances in 3D human motion and language integration have primarily
focused on text-to-motion generation, leaving the task of motion understanding
relatively unexplored. We introduce Dense Motion Captioning, a novel task that
aims to temporally localize and caption actions within 3D human motion
sequences. Current datasets fall short in providing detailed temporal
annotations and predominantly consist of short sequences featuring few actions.
To overcome these limitations, we present the Complex Motion Dataset (CompMo),
the first large-scale dataset featuring richly annotated, complex motion
sequences with precise temporal boundaries. Built through a carefully designed
data generation pipeline, CompMo includes 60,000 motion sequences, each
composed of multiple actions ranging from at least two to ten, accurately
annotated with their temporal extents. We further present DEMO, a model that
integrates a large language model with a simple motion adapter, trained to
generate dense, temporally grounded captions. Our experiments show that DEMO
substantially outperforms existing methods on CompMo as well as on adapted
benchmarks, establishing a robust baseline for future research in 3D motion
understanding and captioning.