Законы масштабирования данных в имитационном обучении для робототехнического манипулирования

Аннотация

Масштабирование данных революционизировало области, такие как обработка естественного языка и компьютерное зрение, обеспечивая модели удивительными обобщающими способностями. В данной статье мы исследуем, существуют ли аналогичные законы масштабирования данных в робототехнике, особенно в робототехническом манипулировании, и может ли соответствующее масштабирование данных привести к созданию политик однозадачных роботов, которые могут быть применены "из коробки" для любого объекта в той же категории в любой среде. Для этого мы проводим всестороннее эмпирическое исследование по масштабированию данных в области обучения имитации. Собрав данные во множестве сред и объектов, мы изучаем, как изменяется обобщающая способность политики в зависимости от количества тренировочных сред, объектов и демонстраций. На протяжении нашего исследования мы собрали более 40 000 демонстраций и провели более 15 000 реальных запусков роботов в рамках строгого протокола оценки. Наши результаты раскрывают несколько увлекательных выводов: обобщающая способность политики следует примерно степенному закону относительно количества сред и объектов. Разнообразие сред и объектов намного важнее, чем абсолютное количество демонстраций; после достижения определенного порога количества демонстраций на среду или объект, дополнительные демонстрации оказывают минимальное воздействие. Основываясь на этих выводах, мы предлагаем эффективную стратегию сбора данных. С четырьмя сборщиками данных, работающими один день, мы собираем достаточно данных для того, чтобы политики для двух задач достигли примерно 90% успешных результатов в новых средах с невидимыми объектами.

English

Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy's generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.