Tênis de Mesa Robótico: Um Estudo de Caso sobre um Sistema de Aprendizado de Alta Velocidade
Robotic Table Tennis: A Case Study into a High Speed Learning System
September 6, 2023
Autores: David B. D'Ambrosio, Jonathan Abelian, Saminda Abeyruwan, Michael Ahn, Alex Bewley, Justin Boyd, Krzysztof Choromanski, Omar Cortes, Erwin Coumans, Tianli Ding, Wenbo Gao, Laura Graesser, Atil Iscen, Navdeep Jaitly, Deepali Jain, Juhana Kangaspunta, Satoshi Kataoka, Gus Kouretas, Yuheng Kuang, Nevena Lazic, Corey Lynch, Reza Mahjourian, Sherry Q. Moore, Thinh Nguyen, Ken Oslund, Barney J Reed, Krista Reymann, Pannag R. Sanketi, Anish Shankar, Pierre Sermanet, Vikas Sindhwani, Avi Singh, Vincent Vanhoucke, Grace Vesom, Peng Xu
cs.AI
Resumo
Apresentamos uma análise detalhada de um sistema de aprendizado robótico do mundo real que, em trabalhos anteriores, demonstrou ser capaz de realizar centenas de rebatidas de tênis de mesa com um humano e possui a habilidade de devolver a bola com precisão para alvos desejados. Este sistema integra um subsistema de percepção altamente otimizado, um controlador robótico de alta velocidade e baixa latência, um paradigma de simulação que pode prevenir danos no mundo real e também treinar políticas para transferência zero-shot, além de reinicializações automatizadas do ambiente real que permitem treinamento e avaliação autônomos em robôs físicos. Complementamos uma descrição completa do sistema, incluindo diversas decisões de projeto que normalmente não são amplamente divulgadas, com uma série de estudos que esclarecem a importância de mitigar várias fontes de latência, considerar desvios nas distribuições de treinamento e implantação, a robustez do sistema de percepção, a sensibilidade aos hiperparâmetros da política e a escolha do espaço de ação. Um vídeo demonstrando os componentes do sistema e detalhes dos resultados experimentais pode ser encontrado em https://youtu.be/uFcnWjB42I0.
English
We present a deep-dive into a real-world robotic learning system that, in
previous work, was shown to be capable of hundreds of table tennis rallies with
a human and has the ability to precisely return the ball to desired targets.
This system puts together a highly optimized perception subsystem, a high-speed
low-latency robot controller, a simulation paradigm that can prevent damage in
the real world and also train policies for zero-shot transfer, and automated
real world environment resets that enable autonomous training and evaluation on
physical robots. We complement a complete system description, including
numerous design decisions that are typically not widely disseminated, with a
collection of studies that clarify the importance of mitigating various sources
of latency, accounting for training and deployment distribution shifts,
robustness of the perception system, sensitivity to policy hyper-parameters,
and choice of action space. A video demonstrating the components of the system
and details of experimental results can be found at
https://youtu.be/uFcnWjB42I0.