ChatPaper.aiChatPaper

제로로 가다: 백만 규모 데이터를 활용한 제로샷 모션 생성으로의 여정

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

July 9, 2025
저자: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI

초록

텍스트 설명을 기반으로 다양하고 자연스러운 인간 동작 시퀀스를 생성하는 것은 컴퓨터 비전, 그래픽스, 로보틱스 분야에서 근본적이면서도 도전적인 연구 주제입니다. 이 분야에서 상당한 진전이 있었음에도 불구하고, 현재의 방법론들은 훈련 데이터셋의 제한된 크기로 인해 제로샷 일반화 능력과 관련된 문제에 직면하는 경우가 많습니다. 더욱이, 포괄적인 평가 프레임워크의 부재는 개선 방향을 식별하지 못함으로써 이 작업의 발전을 저해하고 있습니다. 본 연구에서는 텍스트-투-모션을 새로운 시대로 나아가게 하려는 목표를 가지고 있습니다. 즉, 제로샷 일반화 능력을 달성하는 것입니다. 이를 위해, 첫째로 효율적인 주석 파이프라인을 개발하고, 2,000시간 이상의 200만 개의 고품질 동작 시퀀스를 포함한 최대 규모의 인간 동작 데이터셋인 MotionMillion을 소개합니다. 또한, 제로샷 동작 생성을 평가하기 위한 가장 포괄적인 벤치마크인 MotionMillion-Eval을 제안합니다. 확장 가능한 아키텍처를 활용하여 모델을 70억 개의 파라미터로 확장하고 MotionMillion-Eval에서 그 성능을 검증합니다. 우리의 결과는 도메인 외부 및 복잡한 조합 동작에 대한 강력한 일반화를 보여주며, 제로샷 인간 동작 생성으로의 중요한 진전을 이룹니다. 코드는 https://github.com/VankouF/MotionMillion-Codes에서 확인할 수 있습니다.
English
Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.
PDF464July 10, 2025