Роботизированный настольный теннис: пример высокоскоростной обучающей системы
Robotic Table Tennis: A Case Study into a High Speed Learning System
September 6, 2023
Авторы: David B. D'Ambrosio, Jonathan Abelian, Saminda Abeyruwan, Michael Ahn, Alex Bewley, Justin Boyd, Krzysztof Choromanski, Omar Cortes, Erwin Coumans, Tianli Ding, Wenbo Gao, Laura Graesser, Atil Iscen, Navdeep Jaitly, Deepali Jain, Juhana Kangaspunta, Satoshi Kataoka, Gus Kouretas, Yuheng Kuang, Nevena Lazic, Corey Lynch, Reza Mahjourian, Sherry Q. Moore, Thinh Nguyen, Ken Oslund, Barney J Reed, Krista Reymann, Pannag R. Sanketi, Anish Shankar, Pierre Sermanet, Vikas Sindhwani, Avi Singh, Vincent Vanhoucke, Grace Vesom, Peng Xu
cs.AI
Аннотация
Мы представляем детальный анализ реальной системы обучения роботов, которая в предыдущих исследованиях продемонстрировала способность поддерживать сотни розыгрышей в настольном теннисе с человеком и точно возвращать мяч в заданные цели. Эта система объединяет высокооптимизированную подсистему восприятия, высокоскоростной контроллер робота с низкой задержкой, симуляционную парадигму, которая предотвращает повреждения в реальном мире и обучает стратегии для переноса без дообучения, а также автоматизированные сбросы среды в реальном мире, что позволяет автономное обучение и оценку на физических роботах. Мы дополняем полное описание системы, включая множество проектных решений, которые обычно не широко освещаются, набором исследований, которые проясняют важность минимизации различных источников задержек, учета различий между распределениями данных при обучении и развертывании, устойчивости системы восприятия, чувствительности к гиперпараметрам стратегии и выбора пространства действий. Видео, демонстрирующее компоненты системы и детали экспериментальных результатов, доступно по ссылке: https://youtu.be/uFcnWjB42I0.
English
We present a deep-dive into a real-world robotic learning system that, in
previous work, was shown to be capable of hundreds of table tennis rallies with
a human and has the ability to precisely return the ball to desired targets.
This system puts together a highly optimized perception subsystem, a high-speed
low-latency robot controller, a simulation paradigm that can prevent damage in
the real world and also train policies for zero-shot transfer, and automated
real world environment resets that enable autonomous training and evaluation on
physical robots. We complement a complete system description, including
numerous design decisions that are typically not widely disseminated, with a
collection of studies that clarify the importance of mitigating various sources
of latency, accounting for training and deployment distribution shifts,
robustness of the perception system, sensitivity to policy hyper-parameters,
and choice of action space. A video demonstrating the components of the system
and details of experimental results can be found at
https://youtu.be/uFcnWjB42I0.