К нулю: к генерации движений с нулевым обучением на данных масштаба миллионов
Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
July 9, 2025
Авторы: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI
Аннотация
Генерация разнообразных и естественных последовательностей движений человека на основе текстовых описаний представляет собой фундаментальную и сложную область исследований в сферах компьютерного зрения, графики и робототехники. Несмотря на значительные достижения в этой области, современные методы часто сталкиваются с проблемами, связанными с возможностями обобщения в условиях нулевого сэмплинга (zero-shot), что во многом обусловлено ограниченным размером обучающих наборов данных. Кроме того, отсутствие всеобъемлющей системы оценки затрудняет прогресс в этой задаче, так как не позволяет определить направления для улучшений. В данной работе мы стремимся вывести генерацию движений из текста на новый уровень, а именно — достичь способности к обобщению в условиях нулевого сэмплинга. Для этого, во-первых, мы разрабатываем эффективный конвейер аннотирования и представляем MotionMillion — крупнейший на сегодняшний день набор данных о движениях человека, содержащий более 2000 часов и 2 миллиона высококачественных последовательностей движений. Кроме того, мы предлагаем MotionMillion-Eval — наиболее полный бенчмарк для оценки генерации движений в условиях нулевого сэмплинга. Используя масштабируемую архитектуру, мы увеличиваем размер нашей модели до 7 миллиардов параметров и проверяем её производительность на MotionMillion-Eval. Наши результаты демонстрируют сильное обобщение для движений за пределами домена и сложных композиционных движений, что знаменует собой значительный шаг на пути к генерации движений человека в условиях нулевого сэмплинга. Код доступен по адресу https://github.com/VankouF/MotionMillion-Codes.
English
Generating diverse and natural human motion sequences based on textual
descriptions constitutes a fundamental and challenging research area within the
domains of computer vision, graphics, and robotics. Despite significant
advancements in this field, current methodologies often face challenges
regarding zero-shot generalization capabilities, largely attributable to the
limited size of training datasets. Moreover, the lack of a comprehensive
evaluation framework impedes the advancement of this task by failing to
identify directions for improvement. In this work, we aim to push
text-to-motion into a new era, that is, to achieve the generalization ability
of zero-shot. To this end, firstly, we develop an efficient annotation pipeline
and introduce MotionMillion-the largest human motion dataset to date, featuring
over 2,000 hours and 2 million high-quality motion sequences. Additionally, we
propose MotionMillion-Eval, the most comprehensive benchmark for evaluating
zero-shot motion generation. Leveraging a scalable architecture, we scale our
model to 7B parameters and validate its performance on MotionMillion-Eval. Our
results demonstrate strong generalization to out-of-domain and complex
compositional motions, marking a significant step toward zero-shot human motion
generation. The code is available at
https://github.com/VankouF/MotionMillion-Codes.