RoboTwin 2.0: Un Generador de Datos Escalable y Punto de Referencia con Fuerte Aleatorización de Dominio para la Manipulación Robusta Bimanual en Robótica
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
June 22, 2025
Autores: Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu
cs.AI
Resumen
La síntesis de datos basada en simulación ha surgido como un paradigma poderoso para mejorar la manipulación robótica en el mundo real. Sin embargo, los conjuntos de datos sintéticos existentes siguen siendo insuficientes para una manipulación bimanual robusta debido a dos desafíos: (1) la falta de un método eficiente y escalable para la generación de datos en tareas novedosas, y (2) entornos de simulación demasiado simplificados que no logran capturar la complejidad del mundo real. Presentamos RoboTwin 2.0, un marco de simulación escalable que permite la generación automatizada y a gran escala de datos diversos y realistas, junto con protocolos de evaluación unificados para la manipulación de dos brazos. Primero construimos RoboTwin-OD, una biblioteca de objetos a gran escala que comprende 731 instancias en 147 categorías, cada una anotada con etiquetas semánticas y relevantes para la manipulación. Sobre esta base, desarrollamos una canalización de síntesis de datos expertos que combina modelos de lenguaje multimodal (MLLMs) con refinamiento de simulación en bucle para generar automáticamente código de ejecución a nivel de tarea. Para mejorar la transferencia de simulación a realidad, RoboTwin 2.0 incorpora una aleatorización de dominio estructurada en cinco ejes: desorden, iluminación, fondo, altura de la mesa e instrucciones de lenguaje, mejorando así la diversidad de datos y la robustez de las políticas. Instanciamos este marco en 50 tareas de dos brazos que abarcan cinco configuraciones de robots, y pre-colectamos más de 100,000 trayectorias expertas con aleatorización de dominio. Los resultados empíricos muestran una ganancia del 10.9% en el éxito de la generación de código y una mejor generalización a escenarios novedosos del mundo real. Un modelo VLA ajustado en nuestro conjunto de datos logra una mejora relativa del 367% (42.0% vs. 9.0%) en tareas del mundo real en escenas no vistas, mientras que los modelos de cero disparos entrenados únicamente en nuestros datos sintéticos alcanzan una ganancia relativa del 228%, destacando una fuerte generalización sin supervisión del mundo real. Publicamos el generador de datos, el punto de referencia, el conjunto de datos y el código para apoyar la investigación escalable en la manipulación bimanual robusta.
English
Simulation-based data synthesis has emerged as a powerful paradigm for
enhancing real-world robotic manipulation. However, existing synthetic datasets
remain insufficient for robust bimanual manipulation due to two challenges: (1)
the lack of an efficient, scalable data generation method for novel tasks, and
(2) oversimplified simulation environments that fail to capture real-world
complexity. We present RoboTwin 2.0, a scalable simulation framework that
enables automated, large-scale generation of diverse and realistic data, along
with unified evaluation protocols for dual-arm manipulation. We first construct
RoboTwin-OD, a large-scale object library comprising 731 instances across 147
categories, each annotated with semantic and manipulation-relevant labels.
Building on this foundation, we develop an expert data synthesis pipeline that
combines multimodal large language models (MLLMs) with simulation-in-the-loop
refinement to generate task-level execution code automatically. To improve
sim-to-real transfer, RoboTwin 2.0 incorporates structured domain randomization
along five axes: clutter, lighting, background, tabletop height and language
instructions, thereby enhancing data diversity and policy robustness. We
instantiate this framework across 50 dual-arm tasks spanning five robot
embodiments, and pre-collect over 100,000 domain-randomized expert
trajectories. Empirical results show a 10.9% gain in code generation success
and improved generalization to novel real-world scenarios. A VLA model
fine-tuned on our dataset achieves a 367% relative improvement (42.0% vs. 9.0%)
on unseen scene real-world tasks, while zero-shot models trained solely on our
synthetic data achieve a 228% relative gain, highlighting strong generalization
without real-world supervision. We release the data generator, benchmark,
dataset, and code to support scalable research in robust bimanual manipulation.