ChatPaper.aiChatPaper

ゼロへ向かう:百万規模データを用いたゼロショットモーション生成の実現

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

July 9, 2025
著者: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI

要旨

テキスト記述に基づいて多様で自然な人間の動作シーケンスを生成することは、コンピュータビジョン、グラフィックス、ロボティクスの分野における基本的かつ挑戦的な研究領域です。この分野では大きな進展が見られるものの、現在の手法はゼロショット汎化能力に関して課題を抱えており、その主な原因はトレーニングデータセットの規模が限られていることにあります。さらに、包括的な評価フレームワークの欠如が、改善の方向性を見出すことを妨げ、このタスクの進展を阻んでいます。本研究では、テキストから動作への生成を新たな時代へと押し進めること、すなわちゼロショットの汎化能力を実現することを目指します。そのために、まず効率的なアノテーションパイプラインを開発し、これまでで最大の人間の動作データセットであるMotionMillionを導入します。このデータセットは2,000時間以上、200万の高品質な動作シーケンスを特徴としています。さらに、ゼロショット動作生成を評価するための最も包括的なベンチマークであるMotionMillion-Evalを提案します。スケーラブルなアーキテクチャを活用し、モデルを70億パラメータにスケールアップし、MotionMillion-Evalでその性能を検証します。その結果、ドメイン外の複雑な合成動作に対する強力な汎化能力を示し、ゼロショット人間動作生成に向けた重要な一歩を記しました。コードはhttps://github.com/VankouF/MotionMillion-Codesで公開されています。
English
Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.
PDF464July 10, 2025