TWIST2: Sistema de Recopilación de Datos Humanoide Escalable, Portátil e Integral
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
November 4, 2025
Autores: Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
cs.AI
Resumen
Los datos a gran escala han impulsado avances en robótica, desde modelos de lenguaje hasta modelos visión-lenguaje-acción en manipulación bimanual. Sin embargo, la robótica humanoide carece de marcos de recolección de datos igualmente efectivos. Los sistemas de teleoperación humanoide existentes utilizan control desacoplado o dependen de costosas configuraciones de captura de movimiento. Presentamos TWIST2, un sistema portátil y libre de mocap para teleoperación y recolección de datos humanoide que preserva el control completo de cuerpo entero mientras avanza en la escalabilidad. Nuestro sistema aprovecha PICO4U VR para obtener movimientos humanos de cuerpo completo en tiempo real, con un cuello robótico personalizado de 2 GDL (costo aproximado de $250) para visión egocéntrica, permitiendo un control holístico de humano a humanoide. Demostramos habilidades humanoides diestras y móviles de largo horizonte y podemos recolectar 100 demostraciones en 15 minutos con una tasa de éxito de casi el 100%. Sobre esta base, proponemos un marco de política visuomotora jerárquica que controla autónomamente el cuerpo humanoide completo basándose en visión egocéntrica. Nuestra política visuomotora demuestra con éxito tareas de manipulación diestra de cuerpo completo y patadas dinámicas. El sistema completo es totalmente reproducible y de código abierto en https://yanjieze.com/TWIST2. Nuestro conjunto de datos recopilado también es de código abierto en https://twist-data.github.io.
English
Large-scale data has driven breakthroughs in robotics, from language models
to vision-language-action models in bimanual manipulation. However, humanoid
robotics lacks equally effective data collection frameworks. Existing humanoid
teleoperation systems either use decoupled control or depend on expensive
motion capture setups. We introduce TWIST2, a portable, mocap-free humanoid
teleoperation and data collection system that preserves full whole-body control
while advancing scalability. Our system leverages PICO4U VR for obtaining
real-time whole-body human motions, with a custom 2-DoF robot neck (cost around
$250) for egocentric vision, enabling holistic human-to-humanoid control. We
demonstrate long-horizon dexterous and mobile humanoid skills and we can
collect 100 demonstrations in 15 minutes with an almost 100% success rate.
Building on this pipeline, we propose a hierarchical visuomotor policy
framework that autonomously controls the full humanoid body based on egocentric
vision. Our visuomotor policy successfully demonstrates whole-body dexterous
manipulation and dynamic kicking tasks. The entire system is fully reproducible
and open-sourced at https://yanjieze.com/TWIST2 . Our collected dataset is also
open-sourced at https://twist-data.github.io .