Ir para Zero: Rumo à Geração de Movimento com Zero-shot e Dados em Escala de Milhões
Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
July 9, 2025
Autores: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI
Resumo
A geração de sequências de movimento humano diversas e naturais com base em descrições textuais constitui uma área de pesquisa fundamental e desafiadora nos domínios da visão computacional, gráficos e robótica. Apesar dos avanços significativos nesse campo, as metodologias atuais frequentemente enfrentam desafios relacionados às capacidades de generalização zero-shot, em grande parte atribuíveis ao tamanho limitado dos conjuntos de dados de treinamento. Além disso, a falta de uma estrutura de avaliação abrangente impede o avanço dessa tarefa ao não identificar direções para melhorias. Neste trabalho, buscamos levar a geração de movimento a partir de texto para uma nova era, ou seja, alcançar a capacidade de generalização zero-shot. Para isso, em primeiro lugar, desenvolvemos um pipeline eficiente de anotação e introduzimos o MotionMillion — o maior conjunto de dados de movimento humano até o momento, contendo mais de 2.000 horas e 2 milhões de sequências de movimento de alta qualidade. Adicionalmente, propomos o MotionMillion-Eval, o benchmark mais abrangente para avaliar a geração de movimento zero-shot. Aproveitando uma arquitetura escalável, dimensionamos nosso modelo para 7 bilhões de parâmetros e validamos seu desempenho no MotionMillion-Eval. Nossos resultados demonstram uma forte generalização para movimentos fora do domínio e composicionais complexos, marcando um passo significativo em direção à geração de movimento humano zero-shot. O código está disponível em https://github.com/VankouF/MotionMillion-Codes.
English
Generating diverse and natural human motion sequences based on textual
descriptions constitutes a fundamental and challenging research area within the
domains of computer vision, graphics, and robotics. Despite significant
advancements in this field, current methodologies often face challenges
regarding zero-shot generalization capabilities, largely attributable to the
limited size of training datasets. Moreover, the lack of a comprehensive
evaluation framework impedes the advancement of this task by failing to
identify directions for improvement. In this work, we aim to push
text-to-motion into a new era, that is, to achieve the generalization ability
of zero-shot. To this end, firstly, we develop an efficient annotation pipeline
and introduce MotionMillion-the largest human motion dataset to date, featuring
over 2,000 hours and 2 million high-quality motion sequences. Additionally, we
propose MotionMillion-Eval, the most comprehensive benchmark for evaluating
zero-shot motion generation. Leveraging a scalable architecture, we scale our
model to 7B parameters and validate its performance on MotionMillion-Eval. Our
results demonstrate strong generalization to out-of-domain and complex
compositional motions, marking a significant step toward zero-shot human motion
generation. The code is available at
https://github.com/VankouF/MotionMillion-Codes.