RoboTwin 2.0: Масштабируемый генератор данных и эталонный тест с сильной рандомизацией домена для устойчивого двуручного роботизированного манипулирования
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
June 22, 2025
Авторы: Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu
cs.AI
Аннотация
Синтез данных на основе симуляции стал мощной парадигмой для улучшения манипуляций роботов в реальном мире. Однако существующие синтетические наборы данных остаются недостаточными для надежной двуручной манипуляции из-за двух проблем: (1) отсутствия эффективного, масштабируемого метода генерации данных для новых задач и (2) упрощенных симуляционных сред, которые не учитывают сложность реального мира. Мы представляем RoboTwin 2.0 — масштабируемую симуляционную платформу, которая позволяет автоматизированно генерировать разнообразные и реалистичные данные в больших масштабах, а также предоставляет унифицированные протоколы оценки для двуручной манипуляции. Сначала мы создаем RoboTwin-OD — крупномасштабную библиотеку объектов, включающую 731 экземпляр из 147 категорий, каждый из которых аннотирован семантическими и манипуляционно-релевантными метками. На основе этого мы разрабатываем конвейер синтеза экспертных данных, который сочетает мультимодальные большие языковые модели (MLLMs) с уточнением в цикле симуляции для автоматической генерации кода выполнения задач. Для улучшения переноса из симуляции в реальность RoboTwin 2.0 включает структурированную рандомизацию домена по пяти направлениям: беспорядок, освещение, фон, высота стола и языковые инструкции, что повышает разнообразие данных и устойчивость политик. Мы реализуем эту платформу для 50 двуручных задач, охватывающих пять роботизированных воплощений, и предварительно собираем более 100 000 рандомизированных экспертных траекторий. Эмпирические результаты показывают увеличение успешности генерации кода на 10,9% и улучшение обобщения на новые сценарии реального мира. Модель VLA, дообученная на нашем наборе данных, демонстрирует относительное улучшение на 367% (42,0% против 9,0%) на невидимых задачах в реальных сценах, в то время как модели, обученные с нуля только на наших синтетических данных, показывают относительное улучшение на 228%, что подчеркивает сильное обобщение без надзора в реальном мире. Мы публикуем генератор данных, бенчмарк, набор данных и код для поддержки масштабируемых исследований в области надежной двуручной манипуляции.
English
Simulation-based data synthesis has emerged as a powerful paradigm for
enhancing real-world robotic manipulation. However, existing synthetic datasets
remain insufficient for robust bimanual manipulation due to two challenges: (1)
the lack of an efficient, scalable data generation method for novel tasks, and
(2) oversimplified simulation environments that fail to capture real-world
complexity. We present RoboTwin 2.0, a scalable simulation framework that
enables automated, large-scale generation of diverse and realistic data, along
with unified evaluation protocols for dual-arm manipulation. We first construct
RoboTwin-OD, a large-scale object library comprising 731 instances across 147
categories, each annotated with semantic and manipulation-relevant labels.
Building on this foundation, we develop an expert data synthesis pipeline that
combines multimodal large language models (MLLMs) with simulation-in-the-loop
refinement to generate task-level execution code automatically. To improve
sim-to-real transfer, RoboTwin 2.0 incorporates structured domain randomization
along five axes: clutter, lighting, background, tabletop height and language
instructions, thereby enhancing data diversity and policy robustness. We
instantiate this framework across 50 dual-arm tasks spanning five robot
embodiments, and pre-collect over 100,000 domain-randomized expert
trajectories. Empirical results show a 10.9% gain in code generation success
and improved generalization to novel real-world scenarios. A VLA model
fine-tuned on our dataset achieves a 367% relative improvement (42.0% vs. 9.0%)
on unseen scene real-world tasks, while zero-shot models trained solely on our
synthetic data achieve a 228% relative gain, highlighting strong generalization
without real-world supervision. We release the data generator, benchmark,
dataset, and code to support scalable research in robust bimanual manipulation.