TWIST2: Sistema Scalabile, Portatile e Olistico per la Raccolta di Dati Umanoidi
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
November 4, 2025
Autori: Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
cs.AI
Abstract
I dati su larga scala hanno guidato progressi fondamentali nella robotica, passando da modelli linguistici a modelli visione-linguaggio-azione per la manipolazione bimanuale. Tuttavia, la robotica umanoide manca di framework di raccolta dati ugualmente efficaci. I sistemi di teleoperazione umanoide esistenti utilizzano un controllo disaccoppiato o dipendono da costose configurazioni di motion capture. Introduciamo TWIST2, un sistema portatile e privo di mocap per la teleoperazione umanoide e la raccolta dati che preserva il controllo completo del corpo intero, migliorando al contempo la scalabilità. Il nostro sistema sfrutta PICO4U VR per ottenere movimenti umani in tempo reale del corpo intero, con un collo robotico personalizzato a 2 gradi di libertà (costo circa 250 dollari) per la visione egocentrica, consentendo un controllo olistico da umano a umanoide. Dimostriamo abilità umanoidi mobili e destre su lunghi orizzonti temporali e possiamo raccogliere 100 dimostrazioni in 15 minuti con un tasso di successo quasi del 100%. Basandoci su questa pipeline, proponiamo un framework di policy visuomotoria gerarchica che controlla autonomamente l'intero corpo umanoide basandosi sulla visione egocentrica. La nostra policy visuomotoria dimostra con successo compiti di manipolazione agile del corpo intero e di calcio dinamico. L'intero sistema è completamente riproducibile e open-source all'indirizzo https://yanjieze.com/TWIST2. Il nostro dataset raccolto è anch'esso open-source all'indirizzo https://twist-data.github.io.
English
Large-scale data has driven breakthroughs in robotics, from language models
to vision-language-action models in bimanual manipulation. However, humanoid
robotics lacks equally effective data collection frameworks. Existing humanoid
teleoperation systems either use decoupled control or depend on expensive
motion capture setups. We introduce TWIST2, a portable, mocap-free humanoid
teleoperation and data collection system that preserves full whole-body control
while advancing scalability. Our system leverages PICO4U VR for obtaining
real-time whole-body human motions, with a custom 2-DoF robot neck (cost around
$250) for egocentric vision, enabling holistic human-to-humanoid control. We
demonstrate long-horizon dexterous and mobile humanoid skills and we can
collect 100 demonstrations in 15 minutes with an almost 100% success rate.
Building on this pipeline, we propose a hierarchical visuomotor policy
framework that autonomously controls the full humanoid body based on egocentric
vision. Our visuomotor policy successfully demonstrates whole-body dexterous
manipulation and dynamic kicking tasks. The entire system is fully reproducible
and open-sourced at https://yanjieze.com/TWIST2 . Our collected dataset is also
open-sourced at https://twist-data.github.io .