ChatPaper.aiChatPaper

Leyes de Escala de Datos en Aprendizaje por Imitación para Manipulación Robótica

Data Scaling Laws in Imitation Learning for Robotic Manipulation

October 24, 2024
Autores: Fanqi Lin, Yingdong Hu, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao
cs.AI

Resumen

La escalabilidad de datos ha revolucionado campos como el procesamiento de lenguaje natural y la visión por computadora, proporcionando a los modelos capacidades de generalización notables. En este documento, investigamos si existen leyes de escalabilidad de datos similares en la robótica, particularmente en la manipulación robótica, y si una escalabilidad de datos adecuada puede generar políticas de robots de una sola tarea que puedan ser implementadas sin entrenamiento para cualquier objeto dentro de la misma categoría en cualquier entorno. Con este fin, realizamos un estudio empírico exhaustivo sobre la escalabilidad de datos en el aprendizaje por imitación. Al recopilar datos en numerosos entornos y objetos, estudiamos cómo cambia el rendimiento de generalización de una política con el número de entornos de entrenamiento, objetos y demostraciones. A lo largo de nuestra investigación, recopilamos más de 40,000 demostraciones y ejecutamos más de 15,000 implementaciones de robots en el mundo real bajo un protocolo de evaluación riguroso. Nuestros hallazgos revelan varios resultados intrigantes: el rendimiento de generalización de la política sigue una relación aproximadamente de ley de potencias con el número de entornos y objetos. La diversidad de entornos y objetos es mucho más importante que el número absoluto de demostraciones; una vez que el número de demostraciones por entorno u objeto alcanza un umbral determinado, demostraciones adicionales tienen un efecto mínimo. Basándonos en estos conocimientos, proponemos una estrategia eficiente de recopilación de datos. Con cuatro recolectores de datos trabajando durante una tarde, recopilamos datos suficientes para permitir que las políticas para dos tareas logren aproximadamente tasas de éxito del 90% en entornos novedosos con objetos no vistos.
English
Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy's generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.

Summary

AI-Generated Summary

PDF62November 16, 2024