Законы масштабирования данных в имитационном обучении для робототехнического манипулирования
Data Scaling Laws in Imitation Learning for Robotic Manipulation
October 24, 2024
Авторы: Fanqi Lin, Yingdong Hu, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao
cs.AI
Аннотация
Масштабирование данных революционизировало области, такие как обработка естественного языка и компьютерное зрение, обеспечивая модели удивительными обобщающими способностями. В данной статье мы исследуем, существуют ли аналогичные законы масштабирования данных в робототехнике, особенно в робототехническом манипулировании, и может ли соответствующее масштабирование данных привести к созданию политик однозадачных роботов, которые могут быть применены "из коробки" для любого объекта в той же категории в любой среде. Для этого мы проводим всестороннее эмпирическое исследование по масштабированию данных в области обучения имитации. Собрав данные во множестве сред и объектов, мы изучаем, как изменяется обобщающая способность политики в зависимости от количества тренировочных сред, объектов и демонстраций. На протяжении нашего исследования мы собрали более 40 000 демонстраций и провели более 15 000 реальных запусков роботов в рамках строгого протокола оценки. Наши результаты раскрывают несколько увлекательных выводов: обобщающая способность политики следует примерно степенному закону относительно количества сред и объектов. Разнообразие сред и объектов намного важнее, чем абсолютное количество демонстраций; после достижения определенного порога количества демонстраций на среду или объект, дополнительные демонстрации оказывают минимальное воздействие. Основываясь на этих выводах, мы предлагаем эффективную стратегию сбора данных. С четырьмя сборщиками данных, работающими один день, мы собираем достаточно данных для того, чтобы политики для двух задач достигли примерно 90% успешных результатов в новых средах с невидимыми объектами.
English
Data scaling has revolutionized fields like natural language processing and
computer vision, providing models with remarkable generalization capabilities.
In this paper, we investigate whether similar data scaling laws exist in
robotics, particularly in robotic manipulation, and whether appropriate data
scaling can yield single-task robot policies that can be deployed zero-shot for
any object within the same category in any environment. To this end, we conduct
a comprehensive empirical study on data scaling in imitation learning. By
collecting data across numerous environments and objects, we study how a
policy's generalization performance changes with the number of training
environments, objects, and demonstrations. Throughout our research, we collect
over 40,000 demonstrations and execute more than 15,000 real-world robot
rollouts under a rigorous evaluation protocol. Our findings reveal several
intriguing results: the generalization performance of the policy follows a
roughly power-law relationship with the number of environments and objects. The
diversity of environments and objects is far more important than the absolute
number of demonstrations; once the number of demonstrations per environment or
object reaches a certain threshold, additional demonstrations have minimal
effect. Based on these insights, we propose an efficient data collection
strategy. With four data collectors working for one afternoon, we collect
sufficient data to enable the policies for two tasks to achieve approximately
90% success rates in novel environments with unseen objects.Summary
AI-Generated Summary