Leis de Escala de Dados em Aprendizado por Imitação para Manipulação Robótica
Data Scaling Laws in Imitation Learning for Robotic Manipulation
October 24, 2024
Autores: Fanqi Lin, Yingdong Hu, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao
cs.AI
Resumo
A escalonamento de dados revolucionou áreas como processamento de linguagem natural e visão computacional, proporcionando modelos com notáveis capacidades de generalização. Neste artigo, investigamos se leis de escalonamento de dados semelhantes existem na robótica, especialmente na manipulação robótica, e se o escalonamento adequado de dados pode gerar políticas de robô de única tarefa que podem ser implementadas sem treinamento para qualquer objeto dentro da mesma categoria em qualquer ambiente. Para isso, realizamos um estudo empírico abrangente sobre escalonamento de dados em aprendizado por imitação. Ao coletar dados em inúmeros ambientes e objetos, estudamos como o desempenho de generalização de uma política muda com o número de ambientes de treinamento, objetos e demonstrações. Ao longo de nossa pesquisa, coletamos mais de 40.000 demonstrações e executamos mais de 15.000 execuções de robôs do mundo real sob um protocolo de avaliação rigoroso. Nossas descobertas revelam vários resultados intrigantes: o desempenho de generalização da política segue uma relação aproximadamente de lei de potência com o número de ambientes e objetos. A diversidade de ambientes e objetos é muito mais importante do que o número absoluto de demonstrações; uma vez que o número de demonstrações por ambiente ou objeto atinge um certo limite, demonstrações adicionais têm efeito mínimo. Com base nesses insights, propomos uma estratégia eficiente de coleta de dados. Com quatro coletores de dados trabalhando por uma tarde, coletamos dados suficientes para permitir que as políticas para duas tarefas alcancem aproximadamente taxas de sucesso de 90% em ambientes novos com objetos não vistos.
English
Data scaling has revolutionized fields like natural language processing and
computer vision, providing models with remarkable generalization capabilities.
In this paper, we investigate whether similar data scaling laws exist in
robotics, particularly in robotic manipulation, and whether appropriate data
scaling can yield single-task robot policies that can be deployed zero-shot for
any object within the same category in any environment. To this end, we conduct
a comprehensive empirical study on data scaling in imitation learning. By
collecting data across numerous environments and objects, we study how a
policy's generalization performance changes with the number of training
environments, objects, and demonstrations. Throughout our research, we collect
over 40,000 demonstrations and execute more than 15,000 real-world robot
rollouts under a rigorous evaluation protocol. Our findings reveal several
intriguing results: the generalization performance of the policy follows a
roughly power-law relationship with the number of environments and objects. The
diversity of environments and objects is far more important than the absolute
number of demonstrations; once the number of demonstrations per environment or
object reaches a certain threshold, additional demonstrations have minimal
effect. Based on these insights, we propose an efficient data collection
strategy. With four data collectors working for one afternoon, we collect
sufficient data to enable the policies for two tasks to achieve approximately
90% success rates in novel environments with unseen objects.Summary
AI-Generated Summary