RoboTwin 2.0: Un Generatore di Dati Scalabile e Benchmark con Forte Randomizzazione del Dominio per una Manipolazione Robusta Bimanuale dei Robot
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
June 22, 2025
Autori: Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu
cs.AI
Abstract
La sintesi di dati basata su simulazione è emersa come un paradigma potente per migliorare la manipolazione robotica nel mondo reale. Tuttavia, i dataset sintetici esistenti rimangono insufficienti per una manipolazione bimanuale robusta a causa di due sfide: (1) la mancanza di un metodo efficiente e scalabile per la generazione di dati per nuovi compiti, e (2) ambienti di simulazione eccessivamente semplificati che non riescono a catturare la complessità del mondo reale. Presentiamo RoboTwin 2.0, un framework di simulazione scalabile che consente la generazione automatizzata e su larga scala di dati diversificati e realistici, insieme a protocolli di valutazione unificati per la manipolazione a doppio braccio. Iniziamo costruendo RoboTwin-OD, una libreria di oggetti su larga scala che comprende 731 istanze in 147 categorie, ciascuna annotata con etichette semantiche e rilevanti per la manipolazione. Sulla base di questa fondazione, sviluppiamo una pipeline di sintesi dati esperta che combina modelli linguistici multimodali di grandi dimensioni (MLLM) con un perfezionamento in-loop della simulazione per generare automaticamente il codice di esecuzione a livello di compito. Per migliorare il trasferimento da simulazione a realtà, RoboTwin 2.0 incorpora una randomizzazione strutturata del dominio lungo cinque assi: disordine, illuminazione, sfondo, altezza del piano di lavoro e istruzioni linguistiche, aumentando così la diversità dei dati e la robustezza delle politiche. Istanziamo questo framework su 50 compiti a doppio braccio che coprono cinque incarnazioni di robot, e pre-raccogliamo oltre 100.000 traiettorie esperte con randomizzazione del dominio. I risultati empirici mostrano un miglioramento del 10,9% nel successo della generazione del codice e una migliore generalizzazione a nuovi scenari del mondo reale. Un modello VLA fine-tuned sul nostro dataset raggiunge un miglioramento relativo del 367% (42,0% vs. 9,0%) su compiti del mondo reale in scene non viste, mentre modelli zero-shot addestrati esclusivamente sui nostri dati sintetici ottengono un guadagno relativo del 228%, evidenziando una forte generalizzazione senza supervisione del mondo reale. Rilasciamo il generatore di dati, il benchmark, il dataset e il codice per supportare la ricerca scalabile nella manipolazione bimanuale robusta.
English
Simulation-based data synthesis has emerged as a powerful paradigm for
enhancing real-world robotic manipulation. However, existing synthetic datasets
remain insufficient for robust bimanual manipulation due to two challenges: (1)
the lack of an efficient, scalable data generation method for novel tasks, and
(2) oversimplified simulation environments that fail to capture real-world
complexity. We present RoboTwin 2.0, a scalable simulation framework that
enables automated, large-scale generation of diverse and realistic data, along
with unified evaluation protocols for dual-arm manipulation. We first construct
RoboTwin-OD, a large-scale object library comprising 731 instances across 147
categories, each annotated with semantic and manipulation-relevant labels.
Building on this foundation, we develop an expert data synthesis pipeline that
combines multimodal large language models (MLLMs) with simulation-in-the-loop
refinement to generate task-level execution code automatically. To improve
sim-to-real transfer, RoboTwin 2.0 incorporates structured domain randomization
along five axes: clutter, lighting, background, tabletop height and language
instructions, thereby enhancing data diversity and policy robustness. We
instantiate this framework across 50 dual-arm tasks spanning five robot
embodiments, and pre-collect over 100,000 domain-randomized expert
trajectories. Empirical results show a 10.9% gain in code generation success
and improved generalization to novel real-world scenarios. A VLA model
fine-tuned on our dataset achieves a 367% relative improvement (42.0% vs. 9.0%)
on unseen scene real-world tasks, while zero-shot models trained solely on our
synthetic data achieve a 228% relative gain, highlighting strong generalization
without real-world supervision. We release the data generator, benchmark,
dataset, and code to support scalable research in robust bimanual manipulation.