RoboTwin 2.0: Масштабируемый генератор данных и эталонный тест с сильной рандомизацией домена для устойчивого двуручного роботизированного манипулирования

Аннотация

Синтез данных на основе симуляции стал мощной парадигмой для улучшения манипуляций роботов в реальном мире. Однако существующие синтетические наборы данных остаются недостаточными для надежной двуручной манипуляции из-за двух проблем: (1) отсутствия эффективного, масштабируемого метода генерации данных для новых задач и (2) упрощенных симуляционных сред, которые не учитывают сложность реального мира. Мы представляем RoboTwin 2.0 — масштабируемую симуляционную платформу, которая позволяет автоматизированно генерировать разнообразные и реалистичные данные в больших масштабах, а также предоставляет унифицированные протоколы оценки для двуручной манипуляции. Сначала мы создаем RoboTwin-OD — крупномасштабную библиотеку объектов, включающую 731 экземпляр из 147 категорий, каждый из которых аннотирован семантическими и манипуляционно-релевантными метками. На основе этого мы разрабатываем конвейер синтеза экспертных данных, который сочетает мультимодальные большие языковые модели (MLLMs) с уточнением в цикле симуляции для автоматической генерации кода выполнения задач. Для улучшения переноса из симуляции в реальность RoboTwin 2.0 включает структурированную рандомизацию домена по пяти направлениям: беспорядок, освещение, фон, высота стола и языковые инструкции, что повышает разнообразие данных и устойчивость политик. Мы реализуем эту платформу для 50 двуручных задач, охватывающих пять роботизированных воплощений, и предварительно собираем более 100 000 рандомизированных экспертных траекторий. Эмпирические результаты показывают увеличение успешности генерации кода на 10,9% и улучшение обобщения на новые сценарии реального мира. Модель VLA, дообученная на нашем наборе данных, демонстрирует относительное улучшение на 367% (42,0% против 9,0%) на невидимых задачах в реальных сценах, в то время как модели, обученные с нуля только на наших синтетических данных, показывают относительное улучшение на 228%, что подчеркивает сильное обобщение без надзора в реальном мире. Мы публикуем генератор данных, бенчмарк, набор данных и код для поддержки масштабируемых исследований в области надежной двуручной манипуляции.

English

Simulation-based data synthesis has emerged as a powerful paradigm for enhancing real-world robotic manipulation. However, existing synthetic datasets remain insufficient for robust bimanual manipulation due to two challenges: (1) the lack of an efficient, scalable data generation method for novel tasks, and (2) oversimplified simulation environments that fail to capture real-world complexity. We present RoboTwin 2.0, a scalable simulation framework that enables automated, large-scale generation of diverse and realistic data, along with unified evaluation protocols for dual-arm manipulation. We first construct RoboTwin-OD, a large-scale object library comprising 731 instances across 147 categories, each annotated with semantic and manipulation-relevant labels. Building on this foundation, we develop an expert data synthesis pipeline that combines multimodal large language models (MLLMs) with simulation-in-the-loop refinement to generate task-level execution code automatically. To improve sim-to-real transfer, RoboTwin 2.0 incorporates structured domain randomization along five axes: clutter, lighting, background, tabletop height and language instructions, thereby enhancing data diversity and policy robustness. We instantiate this framework across 50 dual-arm tasks spanning five robot embodiments, and pre-collect over 100,000 domain-randomized expert trajectories. Empirical results show a 10.9% gain in code generation success and improved generalization to novel real-world scenarios. A VLA model fine-tuned on our dataset achieves a 367% relative improvement (42.0% vs. 9.0%) on unseen scene real-world tasks, while zero-shot models trained solely on our synthetic data achieve a 228% relative gain, highlighting strong generalization without real-world supervision. We release the data generator, benchmark, dataset, and code to support scalable research in robust bimanual manipulation.

RoboTwin 2.0: Масштабируемый генератор данных и эталонный тест с сильной рандомизацией домена для устойчивого двуручного роботизированного манипулирования

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Аннотация

Support