ChatPaper.aiChatPaper

RoboTwin 2.0: Um Gerador de Dados Escalável e Benchmark com Forte Randomização de Domínio para Manipulação Robótica Bimanual Robusta

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

June 22, 2025
Autores: Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu
cs.AI

Resumo

A síntese de dados baseada em simulação emergiu como um paradigma poderoso para aprimorar a manipulação robótica no mundo real. No entanto, os conjuntos de dados sintéticos existentes permanecem insuficientes para uma manipulação bimanual robusta devido a dois desafios: (1) a falta de um método eficiente e escalável de geração de dados para novas tarefas, e (2) ambientes de simulação excessivamente simplificados que não capturam a complexidade do mundo real. Apresentamos o RoboTwin 2.0, um framework de simulação escalável que permite a geração automatizada e em larga escala de dados diversos e realistas, juntamente com protocolos de avaliação unificados para manipulação com dois braços. Primeiro, construímos o RoboTwin-OD, uma biblioteca de objetos em larga escala composta por 731 instâncias em 147 categorias, cada uma anotada com rótulos semânticos e relevantes para manipulação. Com base nessa fundação, desenvolvemos um pipeline de síntese de dados especializados que combina modelos de linguagem multimodal (MLLMs) com refinamento de simulação em loop para gerar automaticamente códigos de execução em nível de tarefa. Para melhorar a transferência de simulação para o mundo real, o RoboTwin 2.0 incorpora randomização estruturada de domínio em cinco eixos: desordem, iluminação, fundo, altura da mesa e instruções de linguagem, aumentando assim a diversidade dos dados e a robustez das políticas. Instanciamos esse framework em 50 tarefas bimanuais abrangendo cinco configurações de robôs, e pré-coletamos mais de 100.000 trajetórias especializadas com randomização de domínio. Resultados empíricos mostram um ganho de 10,9% na taxa de sucesso da geração de código e uma melhoria na generalização para novos cenários do mundo real. Um modelo VLA ajustado em nosso conjunto de dados alcança uma melhoria relativa de 367% (42,0% vs. 9,0%) em tarefas do mundo real em cenas não vistas, enquanto modelos zero-shot treinados exclusivamente em nossos dados sintéticos alcançam um ganho relativo de 228%, destacando uma forte generalização sem supervisão do mundo real. Disponibilizamos o gerador de dados, o benchmark, o conjunto de dados e o código para apoiar pesquisas escaláveis em manipulação bimanual robusta.
English
Simulation-based data synthesis has emerged as a powerful paradigm for enhancing real-world robotic manipulation. However, existing synthetic datasets remain insufficient for robust bimanual manipulation due to two challenges: (1) the lack of an efficient, scalable data generation method for novel tasks, and (2) oversimplified simulation environments that fail to capture real-world complexity. We present RoboTwin 2.0, a scalable simulation framework that enables automated, large-scale generation of diverse and realistic data, along with unified evaluation protocols for dual-arm manipulation. We first construct RoboTwin-OD, a large-scale object library comprising 731 instances across 147 categories, each annotated with semantic and manipulation-relevant labels. Building on this foundation, we develop an expert data synthesis pipeline that combines multimodal large language models (MLLMs) with simulation-in-the-loop refinement to generate task-level execution code automatically. To improve sim-to-real transfer, RoboTwin 2.0 incorporates structured domain randomization along five axes: clutter, lighting, background, tabletop height and language instructions, thereby enhancing data diversity and policy robustness. We instantiate this framework across 50 dual-arm tasks spanning five robot embodiments, and pre-collect over 100,000 domain-randomized expert trajectories. Empirical results show a 10.9% gain in code generation success and improved generalization to novel real-world scenarios. A VLA model fine-tuned on our dataset achieves a 367% relative improvement (42.0% vs. 9.0%) on unseen scene real-world tasks, while zero-shot models trained solely on our synthetic data achieve a 228% relative gain, highlighting strong generalization without real-world supervision. We release the data generator, benchmark, dataset, and code to support scalable research in robust bimanual manipulation.
PDF171June 26, 2025