Ir a Cero: Hacia la Generación de Movimiento con Cero Ejemplos Usando Datos a Escala de Millones
Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
July 9, 2025
Autores: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI
Resumen
La generación de secuencias de movimiento humano diversas y naturales basadas en descripciones textuales constituye un área de investigación fundamental y desafiante dentro de los dominios de la visión por computadora, gráficos y robótica. A pesar de los avances significativos en este campo, las metodologías actuales a menudo enfrentan desafíos en cuanto a las capacidades de generalización en modo cero-shot, atribuibles en gran medida al tamaño limitado de los conjuntos de datos de entrenamiento. Además, la falta de un marco de evaluación integral dificulta el avance de esta tarea al no identificar direcciones para la mejora. En este trabajo, nuestro objetivo es llevar la generación de texto a movimiento a una nueva era, es decir, lograr la capacidad de generalización en modo cero-shot. Para ello, en primer lugar, desarrollamos una canalización de anotación eficiente e introducimos MotionMillion, el conjunto de datos de movimiento humano más grande hasta la fecha, que cuenta con más de 2,000 horas y 2 millones de secuencias de movimiento de alta calidad. Adicionalmente, proponemos MotionMillion-Eval, el punto de referencia más completo para evaluar la generación de movimiento en modo cero-shot. Aprovechando una arquitectura escalable, escalamos nuestro modelo a 7 mil millones de parámetros y validamos su rendimiento en MotionMillion-Eval. Nuestros resultados demuestran una fuerte generalización a movimientos fuera del dominio y de composición compleja, marcando un paso significativo hacia la generación de movimiento humano en modo cero-shot. El código está disponible en https://github.com/VankouF/MotionMillion-Codes.
English
Generating diverse and natural human motion sequences based on textual
descriptions constitutes a fundamental and challenging research area within the
domains of computer vision, graphics, and robotics. Despite significant
advancements in this field, current methodologies often face challenges
regarding zero-shot generalization capabilities, largely attributable to the
limited size of training datasets. Moreover, the lack of a comprehensive
evaluation framework impedes the advancement of this task by failing to
identify directions for improvement. In this work, we aim to push
text-to-motion into a new era, that is, to achieve the generalization ability
of zero-shot. To this end, firstly, we develop an efficient annotation pipeline
and introduce MotionMillion-the largest human motion dataset to date, featuring
over 2,000 hours and 2 million high-quality motion sequences. Additionally, we
propose MotionMillion-Eval, the most comprehensive benchmark for evaluating
zero-shot motion generation. Leveraging a scalable architecture, we scale our
model to 7B parameters and validate its performance on MotionMillion-Eval. Our
results demonstrate strong generalization to out-of-domain and complex
compositional motions, marking a significant step toward zero-shot human motion
generation. The code is available at
https://github.com/VankouF/MotionMillion-Codes.