TWIST2: 확장 가능하고 이식성이 뛰어나며 종합적인 휴머노이드 데이터 수집 시스템
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
November 4, 2025
저자: Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
cs.AI
초록
대규모 데이터는 양손 조작 분야에서 언어 모델부터 시각-언어-행동 모델에 이르기까지 로봇공학의 획기적 발전을 주도해왔습니다. 그러나 휴머노이드 로봇공학에는 동등한 효율성을 지닌 데이터 수집 프레임워크가 부족한 실정입니다. 기존 휴머노이드 원격 조작 시스템은 분리된 제어 방식을 사용하거나 고가의 모션 캡처 설정에 의존하고 있습니다. 본 연구에서는 휴머노이드 원격 조작 및 데이터 수집 시스템인 TWIST2를 소개합니다. 이 휴머노이드 시스템은 확장성을 향상시키면서도 완전한 전신 제어를 유지하는 휴대형이며 모션 캡처 장비가 필요하지 않습니다. 우리의 시스템은 실시간 전신 인간 동작 획득을 위해 PICO4U VR을 활용하고, 에고센트릭 비전을 위한 맞춤형 2자유도 로뷰트 목 디바이스(약 250달러 규모)를 통해 전체론적인 인간 대 휴머노이드 제어를 가능하게 합니다. 우리는 장기간에 걸른 정교한 휴머노이드 이동 기술을 구현했으며, 약 15분 만에 100회의 데모를 거의 100% 성공률로 수집할 수 있었습니다. 이러한 파이프라인을 바탕으로, 우리는 에고센트릭 비전을 기반으로 휴머노이드 전체 신체를 자율적으로 제어하는 계층적 시각운동 정책 프레임워크를 제안합니다. 우리의 시각운동 정책은 전신 정교 조작 및 동적 킥킹 작업에서 성공적인 성능을 입증했습니다. 전체 시스템은 완전히 재현 가능하며 https://yanjieze.com/TWIST2 에서 오픈소스로 공개되었습니다. 수집된 데이터셋 또한 https://twist-data.github.io 에 공개되어 있습니다.
English
Large-scale data has driven breakthroughs in robotics, from language models
to vision-language-action models in bimanual manipulation. However, humanoid
robotics lacks equally effective data collection frameworks. Existing humanoid
teleoperation systems either use decoupled control or depend on expensive
motion capture setups. We introduce TWIST2, a portable, mocap-free humanoid
teleoperation and data collection system that preserves full whole-body control
while advancing scalability. Our system leverages PICO4U VR for obtaining
real-time whole-body human motions, with a custom 2-DoF robot neck (cost around
$250) for egocentric vision, enabling holistic human-to-humanoid control. We
demonstrate long-horizon dexterous and mobile humanoid skills and we can
collect 100 demonstrations in 15 minutes with an almost 100% success rate.
Building on this pipeline, we propose a hierarchical visuomotor policy
framework that autonomously controls the full humanoid body based on egocentric
vision. Our visuomotor policy successfully demonstrates whole-body dexterous
manipulation and dynamic kicking tasks. The entire system is fully reproducible
and open-sourced at https://yanjieze.com/TWIST2 . Our collected dataset is also
open-sourced at https://twist-data.github.io .