TWIST2: Масштабируемая, портативная и целостная система сбора данных для гуманоидных роботов
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
November 4, 2025
Авторы: Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
cs.AI
Аннотация
Крупномасштабные данные стали движущей силой прорывов в робототехнике — от языковых моделей до моделей «зрение-язык-действие» в двуручном манипулировании. Однако в области гуманоидной робототехники не хватает столь же эффективных систем сбора данных. Существующие системы телеуправления гуманоидами либо используют развязанное управление, либо зависят от дорогостоящих систем motion capture. Мы представляем TWIST2 — портативную систему телеуправления гуманоидом и сбора данных, не требующую mocap, которая сохраняет полное управление всем телом, повышая масштабируемость. Наша система использует VR-гарнитуру PICO4U для получения движений всего тела человека в реальном времени, а также специальную 2-степенную роботизированную шею (стоимостью около $250) для эгоцентрического зрения, что обеспечивает целостное управление «человек-гуманоид». Мы демонстрируем сложные мобильные навыки гуманоида в длительных горизонтах планирования и можем собрать 100 демонстраций за 15 минут с почти 100% успехом. На основе этого пайплайна мы предлагаем иерархическую框架 визуомоторной политики, которая автономно управляет всем телом гуманоида на основе эгоцентрического зрения. Наша визуомоторная политика успешно выполняет задачи ловкого манипулирования всем телом и динамического удара ногой. Вся система полностью воспроизводима и имеет открытый исходный код на https://yanjieze.com/TWIST2. Собранный нами набор данных также открыт и доступен по адресу https://twist-data.github.io.
English
Large-scale data has driven breakthroughs in robotics, from language models
to vision-language-action models in bimanual manipulation. However, humanoid
robotics lacks equally effective data collection frameworks. Existing humanoid
teleoperation systems either use decoupled control or depend on expensive
motion capture setups. We introduce TWIST2, a portable, mocap-free humanoid
teleoperation and data collection system that preserves full whole-body control
while advancing scalability. Our system leverages PICO4U VR for obtaining
real-time whole-body human motions, with a custom 2-DoF robot neck (cost around
$250) for egocentric vision, enabling holistic human-to-humanoid control. We
demonstrate long-horizon dexterous and mobile humanoid skills and we can
collect 100 demonstrations in 15 minutes with an almost 100% success rate.
Building on this pipeline, we propose a hierarchical visuomotor policy
framework that autonomously controls the full humanoid body based on egocentric
vision. Our visuomotor policy successfully demonstrates whole-body dexterous
manipulation and dynamic kicking tasks. The entire system is fully reproducible
and open-sourced at https://yanjieze.com/TWIST2 . Our collected dataset is also
open-sourced at https://twist-data.github.io .