Verso lo Zero: Verso la Generazione di Movimenti Zero-shot con Dati su Scala Milionaria
Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
July 9, 2025
Autori: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI
Abstract
Generare sequenze di movimento umano diversificate e naturali basate su descrizioni testuali costituisce un'area di ricerca fondamentale e impegnativa nei domini della visione artificiale, della grafica e della robotica. Nonostante i significativi progressi in questo campo, le metodologie attuali spesso affrontano sfide riguardanti le capacità di generalizzazione zero-shot, attribuibili principalmente alle dimensioni limitate dei dataset di addestramento. Inoltre, la mancanza di un framework di valutazione completo ostacola l'avanzamento di questo compito, poiché non identifica le direzioni per il miglioramento. In questo lavoro, miriamo a portare la generazione di movimento da testo in una nuova era, ovvero a raggiungere la capacità di generalizzazione zero-shot. A tal fine, in primo luogo, sviluppiamo una pipeline di annotazione efficiente e introduciamo MotionMillion, il più grande dataset di movimento umano fino ad oggi, con oltre 2.000 ore e 2 milioni di sequenze di movimento di alta qualità. Inoltre, proponiamo MotionMillion-Eval, il benchmark più completo per la valutazione della generazione di movimento zero-shot. Sfruttando un'architettura scalabile, ridimensioniamo il nostro modello a 7 miliardi di parametri e ne validiamo le prestazioni su MotionMillion-Eval. I nostri risultati dimostrano una forte generalizzazione a movimenti fuori dominio e composizionali complessi, segnando un passo significativo verso la generazione di movimento umano zero-shot. Il codice è disponibile all'indirizzo https://github.com/VankouF/MotionMillion-Codes.
English
Generating diverse and natural human motion sequences based on textual
descriptions constitutes a fundamental and challenging research area within the
domains of computer vision, graphics, and robotics. Despite significant
advancements in this field, current methodologies often face challenges
regarding zero-shot generalization capabilities, largely attributable to the
limited size of training datasets. Moreover, the lack of a comprehensive
evaluation framework impedes the advancement of this task by failing to
identify directions for improvement. In this work, we aim to push
text-to-motion into a new era, that is, to achieve the generalization ability
of zero-shot. To this end, firstly, we develop an efficient annotation pipeline
and introduce MotionMillion-the largest human motion dataset to date, featuring
over 2,000 hours and 2 million high-quality motion sequences. Additionally, we
propose MotionMillion-Eval, the most comprehensive benchmark for evaluating
zero-shot motion generation. Leveraging a scalable architecture, we scale our
model to 7B parameters and validate its performance on MotionMillion-Eval. Our
results demonstrate strong generalization to out-of-domain and complex
compositional motions, marking a significant step toward zero-shot human motion
generation. The code is available at
https://github.com/VankouF/MotionMillion-Codes.