ChatPaper.aiChatPaper

Naar Nul: Op Weg naar Zero-shot Bewegingsgeneratie met Miljoenen Schaal Data

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

July 9, 2025
Auteurs: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI

Samenvatting

Het genereren van diverse en natuurlijke menselijke bewegingssequenties op basis van tekstuele beschrijvingen vormt een fundamenteel en uitdagend onderzoeksgebied binnen de domeinen van computervisie, grafische technologie en robotica. Ondanks aanzienlijke vooruitgang in dit veld, worden huidige methodologieën vaak geconfronteerd met uitdagingen op het gebied van zero-shot generalisatievermogen, grotendeels toe te schrijven aan de beperkte omvang van trainingsdatasets. Bovendien belemmert het ontbreken van een uitgebreid evaluatiekader de vooruitgang van deze taak door geen richtingen voor verbetering te identificeren. In dit werk streven we ernaar om tekst-naar-beweging naar een nieuw tijdperk te brengen, namelijk het bereiken van het generalisatievermogen van zero-shot. Hiertoe ontwikkelen we eerst een efficiënt annotatiepijplijn en introduceren we MotionMillion – de grootste dataset voor menselijke bewegingen tot nu toe, met meer dan 2.000 uur en 2 miljoen hoogwaardige bewegingssequenties. Daarnaast stellen we MotionMillion-Eval voor, de meest uitgebreide benchmark voor het evalueren van zero-shot bewegingsgeneratie. Door gebruik te maken van een schaalbare architectuur, schalen we ons model op naar 7B parameters en valideren we de prestaties ervan op MotionMillion-Eval. Onze resultaten tonen een sterke generalisatie naar out-of-domain en complexe samengestelde bewegingen, wat een belangrijke stap markeert in de richting van zero-shot menselijke bewegingsgeneratie. De code is beschikbaar op https://github.com/VankouF/MotionMillion-Codes.
English
Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.
PDF544July 10, 2025