ChatPaper.aiChatPaper

TWIST2: Sistema Scalabile, Portatile e Olistico per la Raccolta di Dati Umanoidi

TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

November 4, 2025
Autori: Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
cs.AI

Abstract

I dati su larga scala hanno guidato progressi fondamentali nella robotica, passando da modelli linguistici a modelli visione-linguaggio-azione per la manipolazione bimanuale. Tuttavia, la robotica umanoide manca di framework di raccolta dati ugualmente efficaci. I sistemi di teleoperazione umanoide esistenti utilizzano un controllo disaccoppiato o dipendono da costose configurazioni di motion capture. Introduciamo TWIST2, un sistema portatile e privo di mocap per la teleoperazione umanoide e la raccolta dati che preserva il controllo completo del corpo intero, migliorando al contempo la scalabilità. Il nostro sistema sfrutta PICO4U VR per ottenere movimenti umani in tempo reale del corpo intero, con un collo robotico personalizzato a 2 gradi di libertà (costo circa 250 dollari) per la visione egocentrica, consentendo un controllo olistico da umano a umanoide. Dimostriamo abilità umanoidi mobili e destre su lunghi orizzonti temporali e possiamo raccogliere 100 dimostrazioni in 15 minuti con un tasso di successo quasi del 100%. Basandoci su questa pipeline, proponiamo un framework di policy visuomotoria gerarchica che controlla autonomamente l'intero corpo umanoide basandosi sulla visione egocentrica. La nostra policy visuomotoria dimostra con successo compiti di manipolazione agile del corpo intero e di calcio dinamico. L'intero sistema è completamente riproducibile e open-source all'indirizzo https://yanjieze.com/TWIST2. Il nostro dataset raccolto è anch'esso open-source all'indirizzo https://twist-data.github.io.
English
Large-scale data has driven breakthroughs in robotics, from language models to vision-language-action models in bimanual manipulation. However, humanoid robotics lacks equally effective data collection frameworks. Existing humanoid teleoperation systems either use decoupled control or depend on expensive motion capture setups. We introduce TWIST2, a portable, mocap-free humanoid teleoperation and data collection system that preserves full whole-body control while advancing scalability. Our system leverages PICO4U VR for obtaining real-time whole-body human motions, with a custom 2-DoF robot neck (cost around $250) for egocentric vision, enabling holistic human-to-humanoid control. We demonstrate long-horizon dexterous and mobile humanoid skills and we can collect 100 demonstrations in 15 minutes with an almost 100% success rate. Building on this pipeline, we propose a hierarchical visuomotor policy framework that autonomously controls the full humanoid body based on egocentric vision. Our visuomotor policy successfully demonstrates whole-body dexterous manipulation and dynamic kicking tasks. The entire system is fully reproducible and open-sourced at https://yanjieze.com/TWIST2 . Our collected dataset is also open-sourced at https://twist-data.github.io .
PDF81December 2, 2025