ChatPaper.aiChatPaper

Go to Zero: Auf dem Weg zur Nullschuss-Bewegungsgenerierung mit Millionen von Daten

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

July 9, 2025
papers.authors: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang
cs.AI

papers.abstract

Die Erzeugung vielfältiger und natürlicher menschlicher Bewegungssequenzen auf der Grundlage von Textbeschreibungen stellt ein grundlegendes und herausforderndes Forschungsgebiet in den Bereichen Computer Vision, Grafik und Robotik dar. Trotz erheblicher Fortschritte in diesem Bereich stehen aktuelle Methoden oft vor Herausforderungen in Bezug auf Zero-Shot-Generalisierungsfähigkeiten, was größtenteils auf die begrenzte Größe der Trainingsdatensätze zurückzuführen ist. Darüber hinaus behindert das Fehlen eines umfassenden Bewertungsrahmens den Fortschritt dieser Aufgabe, da keine Verbesserungsrichtungen identifiziert werden können. In dieser Arbeit streben wir an, die Text-zu-Bewegung in eine neue Ära zu führen, nämlich die Fähigkeit zur Zero-Shot-Generalisierung zu erreichen. Zu diesem Zweck entwickeln wir zunächst einen effizienten Annotationspipeline und führen MotionMillion ein – den größten menschlichen Bewegungsdatensatz bis heute, der über 2.000 Stunden und 2 Millionen hochwertige Bewegungssequenzen umfasst. Zusätzlich schlagen wir MotionMillion-Eval vor, den umfassendsten Benchmark zur Bewertung der Zero-Shot-Bewegungsgenerierung. Durch die Nutzung einer skalierbaren Architektur skalieren wir unser Modell auf 7 Milliarden Parameter und validieren seine Leistung auf MotionMillion-Eval. Unsere Ergebnisse zeigen eine starke Generalisierung auf domänenfremde und komplexe zusammengesetzte Bewegungen, was einen bedeutenden Schritt in Richtung Zero-Shot-Bewegungsgenerierung darstellt. Der Code ist verfügbar unter https://github.com/VankouF/MotionMillion-Codes.
English
Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.
PDF464July 10, 2025