Ir a Cero: Hacia la Generación de Movimiento con Cero Ejemplos Usando Datos a Escala de Millones

Resumen

La generación de secuencias de movimiento humano diversas y naturales basadas en descripciones textuales constituye un área de investigación fundamental y desafiante dentro de los dominios de la visión por computadora, gráficos y robótica. A pesar de los avances significativos en este campo, las metodologías actuales a menudo enfrentan desafíos en cuanto a las capacidades de generalización en modo cero-shot, atribuibles en gran medida al tamaño limitado de los conjuntos de datos de entrenamiento. Además, la falta de un marco de evaluación integral dificulta el avance de esta tarea al no identificar direcciones para la mejora. En este trabajo, nuestro objetivo es llevar la generación de texto a movimiento a una nueva era, es decir, lograr la capacidad de generalización en modo cero-shot. Para ello, en primer lugar, desarrollamos una canalización de anotación eficiente e introducimos MotionMillion, el conjunto de datos de movimiento humano más grande hasta la fecha, que cuenta con más de 2,000 horas y 2 millones de secuencias de movimiento de alta calidad. Adicionalmente, proponemos MotionMillion-Eval, el punto de referencia más completo para evaluar la generación de movimiento en modo cero-shot. Aprovechando una arquitectura escalable, escalamos nuestro modelo a 7 mil millones de parámetros y validamos su rendimiento en MotionMillion-Eval. Nuestros resultados demuestran una fuerte generalización a movimientos fuera del dominio y de composición compleja, marcando un paso significativo hacia la generación de movimiento humano en modo cero-shot. El código está disponible en https://github.com/VankouF/MotionMillion-Codes.

English

Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.

Ir a Cero: Hacia la Generación de Movimiento con Cero Ejemplos Usando Datos a Escala de Millones

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

Resumen

Support