Naar Nul: Op Weg naar Zero-shot Bewegingsgeneratie met Miljoenen Schaal Data
Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
July 9, 2025
Auteurs: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI
Samenvatting
Het genereren van diverse en natuurlijke menselijke bewegingssequenties op basis van tekstuele beschrijvingen vormt een fundamenteel en uitdagend onderzoeksgebied binnen de domeinen van computervisie, grafische technologie en robotica. Ondanks aanzienlijke vooruitgang in dit veld, worden huidige methodologieën vaak geconfronteerd met uitdagingen op het gebied van zero-shot generalisatievermogen, grotendeels toe te schrijven aan de beperkte omvang van trainingsdatasets. Bovendien belemmert het ontbreken van een uitgebreid evaluatiekader de vooruitgang van deze taak door geen richtingen voor verbetering te identificeren. In dit werk streven we ernaar om tekst-naar-beweging naar een nieuw tijdperk te brengen, namelijk het bereiken van het generalisatievermogen van zero-shot. Hiertoe ontwikkelen we eerst een efficiënt annotatiepijplijn en introduceren we MotionMillion – de grootste dataset voor menselijke bewegingen tot nu toe, met meer dan 2.000 uur en 2 miljoen hoogwaardige bewegingssequenties. Daarnaast stellen we MotionMillion-Eval voor, de meest uitgebreide benchmark voor het evalueren van zero-shot bewegingsgeneratie. Door gebruik te maken van een schaalbare architectuur, schalen we ons model op naar 7B parameters en valideren we de prestaties ervan op MotionMillion-Eval. Onze resultaten tonen een sterke generalisatie naar out-of-domain en complexe samengestelde bewegingen, wat een belangrijke stap markeert in de richting van zero-shot menselijke bewegingsgeneratie. De code is beschikbaar op https://github.com/VankouF/MotionMillion-Codes.
English
Generating diverse and natural human motion sequences based on textual
descriptions constitutes a fundamental and challenging research area within the
domains of computer vision, graphics, and robotics. Despite significant
advancements in this field, current methodologies often face challenges
regarding zero-shot generalization capabilities, largely attributable to the
limited size of training datasets. Moreover, the lack of a comprehensive
evaluation framework impedes the advancement of this task by failing to
identify directions for improvement. In this work, we aim to push
text-to-motion into a new era, that is, to achieve the generalization ability
of zero-shot. To this end, firstly, we develop an efficient annotation pipeline
and introduce MotionMillion-the largest human motion dataset to date, featuring
over 2,000 hours and 2 million high-quality motion sequences. Additionally, we
propose MotionMillion-Eval, the most comprehensive benchmark for evaluating
zero-shot motion generation. Leveraging a scalable architecture, we scale our
model to 7B parameters and validate its performance on MotionMillion-Eval. Our
results demonstrate strong generalization to out-of-domain and complex
compositional motions, marking a significant step toward zero-shot human motion
generation. The code is available at
https://github.com/VankouF/MotionMillion-Codes.