Vers Zéro : Vers la génération de mouvements en zero-shot avec des données à l'échelle du million
Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
July 9, 2025
papers.authors: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI
papers.abstract
La génération de séquences de mouvements humains diversifiés et naturels à partir de descriptions textuelles constitue un domaine de recherche fondamental et complexe dans les champs de la vision par ordinateur, des graphismes et de la robotique. Malgré des avancées significatives dans ce domaine, les méthodologies actuelles rencontrent souvent des difficultés concernant les capacités de généralisation en zero-shot, principalement en raison de la taille limitée des ensembles de données d’entraînement. De plus, l’absence d’un cadre d’évaluation complet freine les progrès dans cette tâche en ne permettant pas d’identifier les axes d’amélioration. Dans ce travail, nous visons à propulser la génération de mouvements à partir de texte dans une nouvelle ère, c’est-à-dire à atteindre la capacité de généralisation en zero-shot. Pour ce faire, nous développons d’abord un pipeline d’annotation efficace et introduisons MotionMillion, le plus grand ensemble de données de mouvements humains à ce jour, comprenant plus de 2 000 heures et 2 millions de séquences de mouvements de haute qualité. En outre, nous proposons MotionMillion-Eval, le benchmark le plus complet pour évaluer la génération de mouvements en zero-shot. En exploitant une architecture évolutive, nous augmentons notre modèle à 7 milliards de paramètres et validons ses performances sur MotionMillion-Eval. Nos résultats démontrent une forte généralisation à des mouvements hors domaine et de composition complexe, marquant une étape significative vers la génération de mouvements humains en zero-shot. Le code est disponible à l’adresse suivante : https://github.com/VankouF/MotionMillion-Codes.
English
Generating diverse and natural human motion sequences based on textual
descriptions constitutes a fundamental and challenging research area within the
domains of computer vision, graphics, and robotics. Despite significant
advancements in this field, current methodologies often face challenges
regarding zero-shot generalization capabilities, largely attributable to the
limited size of training datasets. Moreover, the lack of a comprehensive
evaluation framework impedes the advancement of this task by failing to
identify directions for improvement. In this work, we aim to push
text-to-motion into a new era, that is, to achieve the generalization ability
of zero-shot. To this end, firstly, we develop an efficient annotation pipeline
and introduce MotionMillion-the largest human motion dataset to date, featuring
over 2,000 hours and 2 million high-quality motion sequences. Additionally, we
propose MotionMillion-Eval, the most comprehensive benchmark for evaluating
zero-shot motion generation. Leveraging a scalable architecture, we scale our
model to 7B parameters and validate its performance on MotionMillion-Eval. Our
results demonstrate strong generalization to out-of-domain and complex
compositional motions, marking a significant step toward zero-shot human motion
generation. The code is available at
https://github.com/VankouF/MotionMillion-Codes.