RoboTwin 2.0: Ein skalierbarer Datengenerator und Benchmark mit starker Domänenrandomisierung für robuste bimanuelle robotische Manipulation
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
June 22, 2025
Autoren: Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu
cs.AI
Zusammenfassung
Simulationsbasierte Datensynthese hat sich als leistungsstarkes Paradigma zur Verbesserung der robotergestützten Manipulation in der realen Welt etabliert. Bestehende synthetische Datensätze sind jedoch aufgrund zweier Herausforderungen unzureichend für eine robuste bimanuelle Manipulation: (1) das Fehlen einer effizienten, skalierbaren Methode zur Datengenerierung für neuartige Aufgaben und (2) übermäßig vereinfachte Simulationsumgebungen, die die Komplexität der realen Welt nicht erfassen. Wir präsentieren RoboTwin 2.0, ein skalierbares Simulationsframework, das die automatisierte, großflächige Generierung vielfältiger und realistischer Daten ermöglicht, zusammen mit einheitlichen Evaluierungsprotokollen für die dualarmige Manipulation. Zunächst erstellen wir RoboTwin-OD, eine umfangreiche Objektbibliothek mit 731 Instanzen aus 147 Kategorien, die jeweils mit semantischen und manipulationsrelevanten Labels versehen sind. Auf dieser Grundlage entwickeln wir eine Expertendatensynthese-Pipeline, die multimodale große Sprachmodelle (MLLMs) mit einer simulationsbasierten Feinabstimmung kombiniert, um aufgabenbezogenen Ausführungscode automatisch zu generieren. Um den Transfer von der Simulation in die reale Welt zu verbessern, integriert RoboTwin 2.0 strukturierte Domänenrandomisierung entlang fünf Achsen: Unordnung, Beleuchtung, Hintergrund, Tischhöhe und Sprachanweisungen, wodurch die Datenvielfalt und die Robustheit der Strategien erhöht werden. Wir instanziieren dieses Framework über 50 dualarmige Aufgaben, die fünf Roboter-Embodiments umfassen, und sammeln im Voraus über 100.000 domänenrandomisierte Experten-Trajektorien. Empirische Ergebnisse zeigen einen Zuwachs von 10,9 % bei der Erfolgsrate der Codegenerierung und eine verbesserte Generalisierung auf neuartige reale Szenarien. Ein auf unserem Datensatz feinabgestimmtes VLA-Modell erzielt eine relative Verbesserung von 367 % (42,0 % vs. 9,0 %) bei unbekannten realen Aufgaben, während Zero-Shot-Modelle, die ausschließlich auf unseren synthetischen Daten trainiert wurden, eine relative Steigerung von 228 % erreichen, was eine starke Generalisierung ohne reale Überwachung verdeutlicht. Wir veröffentlichen den Datengenerator, den Benchmark, den Datensatz und den Code, um skalierbare Forschung in der robusten bimanuellen Manipulation zu unterstützen.
English
Simulation-based data synthesis has emerged as a powerful paradigm for
enhancing real-world robotic manipulation. However, existing synthetic datasets
remain insufficient for robust bimanual manipulation due to two challenges: (1)
the lack of an efficient, scalable data generation method for novel tasks, and
(2) oversimplified simulation environments that fail to capture real-world
complexity. We present RoboTwin 2.0, a scalable simulation framework that
enables automated, large-scale generation of diverse and realistic data, along
with unified evaluation protocols for dual-arm manipulation. We first construct
RoboTwin-OD, a large-scale object library comprising 731 instances across 147
categories, each annotated with semantic and manipulation-relevant labels.
Building on this foundation, we develop an expert data synthesis pipeline that
combines multimodal large language models (MLLMs) with simulation-in-the-loop
refinement to generate task-level execution code automatically. To improve
sim-to-real transfer, RoboTwin 2.0 incorporates structured domain randomization
along five axes: clutter, lighting, background, tabletop height and language
instructions, thereby enhancing data diversity and policy robustness. We
instantiate this framework across 50 dual-arm tasks spanning five robot
embodiments, and pre-collect over 100,000 domain-randomized expert
trajectories. Empirical results show a 10.9% gain in code generation success
and improved generalization to novel real-world scenarios. A VLA model
fine-tuned on our dataset achieves a 367% relative improvement (42.0% vs. 9.0%)
on unseen scene real-world tasks, while zero-shot models trained solely on our
synthetic data achieve a 228% relative gain, highlighting strong generalization
without real-world supervision. We release the data generator, benchmark,
dataset, and code to support scalable research in robust bimanual manipulation.