Vers Zéro : Vers la génération de mouvements en zero-shot avec des données à l'échelle du million

papers.abstract

La génération de séquences de mouvements humains diversifiés et naturels à partir de descriptions textuelles constitue un domaine de recherche fondamental et complexe dans les champs de la vision par ordinateur, des graphismes et de la robotique. Malgré des avancées significatives dans ce domaine, les méthodologies actuelles rencontrent souvent des difficultés concernant les capacités de généralisation en zero-shot, principalement en raison de la taille limitée des ensembles de données d’entraînement. De plus, l’absence d’un cadre d’évaluation complet freine les progrès dans cette tâche en ne permettant pas d’identifier les axes d’amélioration. Dans ce travail, nous visons à propulser la génération de mouvements à partir de texte dans une nouvelle ère, c’est-à-dire à atteindre la capacité de généralisation en zero-shot. Pour ce faire, nous développons d’abord un pipeline d’annotation efficace et introduisons MotionMillion, le plus grand ensemble de données de mouvements humains à ce jour, comprenant plus de 2 000 heures et 2 millions de séquences de mouvements de haute qualité. En outre, nous proposons MotionMillion-Eval, le benchmark le plus complet pour évaluer la génération de mouvements en zero-shot. En exploitant une architecture évolutive, nous augmentons notre modèle à 7 milliards de paramètres et validons ses performances sur MotionMillion-Eval. Nos résultats démontrent une forte généralisation à des mouvements hors domaine et de composition complexe, marquant une étape significative vers la génération de mouvements humains en zero-shot. Le code est disponible à l’adresse suivante : https://github.com/VankouF/MotionMillion-Codes.

English

Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.

Vers Zéro : Vers la génération de mouvements en zero-shot avec des données à l'échelle du million

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

papers.abstract

Support