ChatPaper.aiChatPaper

Является ли разнообразие всем, что необходимо для масштабируемой роботизированной манипуляции?

Is Diversity All You Need for Scalable Robotic Manipulation?

July 8, 2025
Авторы: Modi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li
cs.AI

Аннотация

Масштабирование данных привело к значительным успехам в базовых моделях для обработки естественного языка (NLP) и компьютерного зрения (CV), однако принципы эффективного масштабирования данных в задачах манипуляции роботов остаются недостаточно изученными. В данной работе мы исследуем тонкую роль разнообразия данных в обучении роботов, рассматривая три ключевых аспекта — задачу (что делать), воплощение (какой робот используется) и эксперта (кто демонстрирует), — бросая вызов традиционной интуиции «чем разнообразнее, тем лучше». В ходе обширных экспериментов на различных роботизированных платформах мы выяснили, что (1) разнообразие задач оказывается более важным, чем количество демонстраций для каждой задачи, способствуя переносу знаний из разнообразных предварительно обученных задач на новые сценарии; (2) данные для предварительного обучения с использованием нескольких воплощений не обязательны для кросс-воплощенческого переноса — модели, обученные на высококачественных данных одного воплощения, могут эффективно переноситься на разные платформы, демонстрируя более предпочтительные свойства масштабирования при дообучении по сравнению с моделями, предварительно обученными на данных нескольких воплощений; и (3) разнообразие экспертов, обусловленное индивидуальными предпочтениями в операциях и стохастическими вариациями в демонстрациях человека, может затруднять обучение политик, причем многомодальность скорости становится ключевым фактором. На основе этих выводов мы предлагаем метод устранения смещения распределения для снижения неоднозначности скорости, что позволяет модели GO-1-Pro достичь значительного улучшения производительности на 15%, эквивалентного использованию в 2,5 раза больше данных для предварительного обучения. В совокупности эти результаты предоставляют новые перспективы и практические рекомендации по эффективному масштабированию наборов данных для манипуляции роботов.
English
Data scaling has driven remarkable success in foundation models for Natural Language Processing (NLP) and Computer Vision (CV), yet the principles of effective data scaling in robotic manipulation remain insufficiently understood. In this work, we investigate the nuanced role of data diversity in robot learning by examining three critical dimensions-task (what to do), embodiment (which robot to use), and expert (who demonstrates)-challenging the conventional intuition of "more diverse is better". Throughout extensive experiments on various robot platforms, we reveal that (1) task diversity proves more critical than per-task demonstration quantity, benefiting transfer from diverse pre-training tasks to novel downstream scenarios; (2) multi-embodiment pre-training data is optional for cross-embodiment transfer-models trained on high-quality single-embodiment data can efficiently transfer to different platforms, showing more desirable scaling property during fine-tuning than multi-embodiment pre-trained models; and (3) expert diversity, arising from individual operational preferences and stochastic variations in human demonstrations, can be confounding to policy learning, with velocity multimodality emerging as a key contributing factor. Based on this insight, we propose a distribution debiasing method to mitigate velocity ambiguity, the yielding GO-1-Pro achieves substantial performance gains of 15%, equivalent to using 2.5 times pre-training data. Collectively, these findings provide new perspectives and offer practical guidance on how to scale robotic manipulation datasets effectively.
PDF181July 9, 2025