RoboTwin 2.0: Een schaalbare datagenerator en benchmark met sterke domeinrandomisatie voor robuuste bimanuele robotmanipulatie
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
June 22, 2025
Auteurs: Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu
cs.AI
Samenvatting
Simulatiegebaseerde datasynthese is naar voren gekomen als een krachtig paradigma voor het verbeteren van robotmanipulatie in de echte wereld. Bestaande synthetische datasets zijn echter nog steeds onvoldoende voor robuuste bimanuele manipulatie vanwege twee uitdagingen: (1) het ontbreken van een efficiënte, schaalbare methode voor gegevensgeneratie voor nieuwe taken, en (2) te vereenvoudigde simulatieomgevingen die de complexiteit van de echte wereld niet voldoende weergeven. Wij presenteren RoboTwin 2.0, een schaalbaar simulatiekader dat geautomatiseerde, grootschalige generatie van diverse en realistische data mogelijk maakt, samen met uniforme evaluatieprotocollen voor dual-arm manipulatie. We construeren eerst RoboTwin-OD, een grootschalige objectenbibliotheek bestaande uit 731 instanties verdeeld over 147 categorieën, elk voorzien van semantische en manipulatie-relevante labels. Op basis hiervan ontwikkelen we een expert datasynthesepijplijn die multimodale grote taalmodellen (MLLMs) combineert met simulatie-in-de-lus verfijning om taakuitvoeringscode automatisch te genereren. Om de simulatie-naar-realiteit overdracht te verbeteren, integreert RoboTwin 2.0 gestructureerde domeinrandomisatie langs vijf assen: rommel, verlichting, achtergrond, tafelhoogte en taal instructies, waardoor de diversiteit van de data en de robuustheid van het beleid worden vergroot. We implementeren dit kader voor 50 dual-arm taken verspreid over vijf robotembodiments, en verzamelen vooraf meer dan 100.000 domeingerandomiseerde experttrajecten. Empirische resultaten tonen een verbetering van 10,9% in het succes van codegeneratie en een betere generalisatie naar nieuwe real-world scenario's. Een VLA-model dat is afgestemd op onze dataset behaalt een relatieve verbetering van 367% (42,0% vs. 9,0%) op onbekende real-world taken, terwijl zero-shot modellen die uitsluitend op onze synthetische data zijn getraind een relatieve winst van 228% behalen, wat sterke generalisatie zonder real-world supervisie benadrukt. We maken de datagenerator, benchmark, dataset en code beschikbaar om schaalbaar onderzoek naar robuuste bimanuele manipulatie te ondersteunen.
English
Simulation-based data synthesis has emerged as a powerful paradigm for
enhancing real-world robotic manipulation. However, existing synthetic datasets
remain insufficient for robust bimanual manipulation due to two challenges: (1)
the lack of an efficient, scalable data generation method for novel tasks, and
(2) oversimplified simulation environments that fail to capture real-world
complexity. We present RoboTwin 2.0, a scalable simulation framework that
enables automated, large-scale generation of diverse and realistic data, along
with unified evaluation protocols for dual-arm manipulation. We first construct
RoboTwin-OD, a large-scale object library comprising 731 instances across 147
categories, each annotated with semantic and manipulation-relevant labels.
Building on this foundation, we develop an expert data synthesis pipeline that
combines multimodal large language models (MLLMs) with simulation-in-the-loop
refinement to generate task-level execution code automatically. To improve
sim-to-real transfer, RoboTwin 2.0 incorporates structured domain randomization
along five axes: clutter, lighting, background, tabletop height and language
instructions, thereby enhancing data diversity and policy robustness. We
instantiate this framework across 50 dual-arm tasks spanning five robot
embodiments, and pre-collect over 100,000 domain-randomized expert
trajectories. Empirical results show a 10.9% gain in code generation success
and improved generalization to novel real-world scenarios. A VLA model
fine-tuned on our dataset achieves a 367% relative improvement (42.0% vs. 9.0%)
on unseen scene real-world tasks, while zero-shot models trained solely on our
synthetic data achieve a 228% relative gain, highlighting strong generalization
without real-world supervision. We release the data generator, benchmark,
dataset, and code to support scalable research in robust bimanual manipulation.