RoboTwin 2.0 : Un générateur de données évolutif et un benchmark avec une forte randomisation de domaine pour une manipulation bimanuelle robuste en robotique
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
June 22, 2025
Auteurs: Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu
cs.AI
Résumé
La synthèse de données basée sur la simulation est devenue un paradigme puissant pour améliorer la manipulation robotique dans le monde réel. Cependant, les ensembles de données synthétiques existants restent insuffisants pour une manipulation bimanuelle robuste en raison de deux défis : (1) l'absence d'une méthode efficace et évolutive de génération de données pour des tâches nouvelles, et (2) des environnements de simulation trop simplifiés qui ne parviennent pas à capturer la complexité du monde réel. Nous présentons RoboTwin 2.0, un cadre de simulation évolutif qui permet la génération automatisée et à grande échelle de données diversifiées et réalistes, ainsi que des protocoles d'évaluation unifiés pour la manipulation à deux bras. Nous construisons d'abord RoboTwin-OD, une bibliothèque d'objets à grande échelle comprenant 731 instances réparties dans 147 catégories, chacune annotée avec des étiquettes sémantiques et pertinentes pour la manipulation. Sur cette base, nous développons un pipeline de synthèse de données expertes qui combine des modèles de langage multimodaux (MLLMs) avec un raffinement en boucle de simulation pour générer automatiquement du code d'exécution au niveau de la tâche. Pour améliorer le transfert simulation-réel, RoboTwin 2.0 intègre une randomisation de domaine structurée selon cinq axes : encombrement, éclairage, arrière-plan, hauteur de la table et instructions linguistiques, augmentant ainsi la diversité des données et la robustesse des politiques. Nous instancions ce cadre sur 50 tâches bimanuelles couvrant cinq incarnations de robots, et pré-collectons plus de 100 000 trajectoires expertes randomisées par domaine. Les résultats empiriques montrent un gain de 10,9 % dans le succès de la génération de code et une meilleure généralisation à de nouveaux scénarios réels. Un modèle VLA affiné sur notre ensemble de données atteint une amélioration relative de 367 % (42,0 % contre 9,0 %) sur des tâches réelles de scènes inédites, tandis que les modèles zero-shot entraînés uniquement sur nos données synthétiques obtiennent un gain relatif de 228 %, mettant en évidence une forte généralisation sans supervision du monde réel. Nous publions le générateur de données, le benchmark, l'ensemble de données et le code pour soutenir la recherche évolutive dans la manipulation bimanuelle robuste.
English
Simulation-based data synthesis has emerged as a powerful paradigm for
enhancing real-world robotic manipulation. However, existing synthetic datasets
remain insufficient for robust bimanual manipulation due to two challenges: (1)
the lack of an efficient, scalable data generation method for novel tasks, and
(2) oversimplified simulation environments that fail to capture real-world
complexity. We present RoboTwin 2.0, a scalable simulation framework that
enables automated, large-scale generation of diverse and realistic data, along
with unified evaluation protocols for dual-arm manipulation. We first construct
RoboTwin-OD, a large-scale object library comprising 731 instances across 147
categories, each annotated with semantic and manipulation-relevant labels.
Building on this foundation, we develop an expert data synthesis pipeline that
combines multimodal large language models (MLLMs) with simulation-in-the-loop
refinement to generate task-level execution code automatically. To improve
sim-to-real transfer, RoboTwin 2.0 incorporates structured domain randomization
along five axes: clutter, lighting, background, tabletop height and language
instructions, thereby enhancing data diversity and policy robustness. We
instantiate this framework across 50 dual-arm tasks spanning five robot
embodiments, and pre-collect over 100,000 domain-randomized expert
trajectories. Empirical results show a 10.9% gain in code generation success
and improved generalization to novel real-world scenarios. A VLA model
fine-tuned on our dataset achieves a 367% relative improvement (42.0% vs. 9.0%)
on unseen scene real-world tasks, while zero-shot models trained solely on our
synthetic data achieve a 228% relative gain, highlighting strong generalization
without real-world supervision. We release the data generator, benchmark,
dataset, and code to support scalable research in robust bimanual manipulation.