TWIST2: Skalierbares, portables und ganzheitliches Humanoid-Datenerfassungssystem
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
November 4, 2025
papers.authors: Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
cs.AI
papers.abstract
Großskalige Daten haben Durchbrüche in der Robotik ermöglicht, von Sprachmodellen bis hin zu Vision-Language-Action-Modellen für die bimanuelle Manipulation. Dennoch mangelt es in der humanoiden Robotik an ebenso effektiven Datenerfassungsframeworks. Bestehende Teleoperationssysteme für humanoide Roboter verwenden entweder entkoppelte Steuerung oder sind auf teure Motion-Capture-Setups angewiesen. Wir stellen TWIST2 vor, ein portables, mocap-freies Teleoperations- und Datenerfassungssystem für humanoide Roboter, das die vollständige Ganzkörpersteuerung beibehält und gleichzeitig die Skalierbarkeit verbessert. Unser System nutzt PICO4U VR zur Erfassung von Echtzeit-Ganzkörperbewegungen des Menschen, kombiniert mit einem maßgeschneiderten 2-DoF-Roboterhals (Kosten ca. 250 US-Dollar) für die egozentrische Wahrnehmung, was eine ganzheitliche Mensch-zu-Humanoid-Steuerung ermöglicht. Wir demonstrieren langfristige, geschickte und mobile Fähigkeiten humanoid
English
Large-scale data has driven breakthroughs in robotics, from language models
to vision-language-action models in bimanual manipulation. However, humanoid
robotics lacks equally effective data collection frameworks. Existing humanoid
teleoperation systems either use decoupled control or depend on expensive
motion capture setups. We introduce TWIST2, a portable, mocap-free humanoid
teleoperation and data collection system that preserves full whole-body control
while advancing scalability. Our system leverages PICO4U VR for obtaining
real-time whole-body human motions, with a custom 2-DoF robot neck (cost around
$250) for egocentric vision, enabling holistic human-to-humanoid control. We
demonstrate long-horizon dexterous and mobile humanoid skills and we can
collect 100 demonstrations in 15 minutes with an almost 100% success rate.
Building on this pipeline, we propose a hierarchical visuomotor policy
framework that autonomously controls the full humanoid body based on egocentric
vision. Our visuomotor policy successfully demonstrates whole-body dexterous
manipulation and dynamic kicking tasks. The entire system is fully reproducible
and open-sourced at https://yanjieze.com/TWIST2 . Our collected dataset is also
open-sourced at https://twist-data.github.io .