ChatPaper.aiChatPaper

로봇 탁구: 고속 학습 시스템에 대한 사례 연구

Robotic Table Tennis: A Case Study into a High Speed Learning System

September 6, 2023
저자: David B. D'Ambrosio, Jonathan Abelian, Saminda Abeyruwan, Michael Ahn, Alex Bewley, Justin Boyd, Krzysztof Choromanski, Omar Cortes, Erwin Coumans, Tianli Ding, Wenbo Gao, Laura Graesser, Atil Iscen, Navdeep Jaitly, Deepali Jain, Juhana Kangaspunta, Satoshi Kataoka, Gus Kouretas, Yuheng Kuang, Nevena Lazic, Corey Lynch, Reza Mahjourian, Sherry Q. Moore, Thinh Nguyen, Ken Oslund, Barney J Reed, Krista Reymann, Pannag R. Sanketi, Anish Shankar, Pierre Sermanet, Vikas Sindhwani, Avi Singh, Vincent Vanhoucke, Grace Vesom, Peng Xu
cs.AI

초록

우리는 실제 세계의 로봇 학습 시스템에 대한 심층 분석을 제시합니다. 이 시스템은 이전 연구에서 인간과 수백 번의 탁구 랠리를 수행할 수 있고, 공을 원하는 목표 지점에 정확히 되돌려 보낼 수 있는 능력을 보여준 바 있습니다. 이 시스템은 고도로 최적화된 인식 서브시스템, 고속 저지연 로봇 제어기, 실제 세계에서의 손상을 방지하고 제로샷 전이를 위한 정책을 훈련할 수 있는 시뮬레이션 패러다임, 그리고 물리적 로봇에서의 자율 훈련과 평가를 가능하게 하는 자동화된 실제 환경 리셋 기능을 통합하고 있습니다. 우리는 다양한 지연 원인을 완화하는 것의 중요성, 훈련과 배포 분포 변화를 고려하는 것, 인식 시스템의 견고성, 정책 하이퍼파라미터에 대한 민감도, 그리고 행동 공간 선택과 같은 요소들을 명확히 하는 연구들을 통해, 일반적으로 널리 공유되지 않는 수많은 설계 결정을 포함한 완전한 시스템 설명을 보완합니다. 시스템의 구성 요소와 실험 결과의 상세 내용을 보여주는 비디오는 https://youtu.be/uFcnWjB42I0에서 확인할 수 있습니다.
English
We present a deep-dive into a real-world robotic learning system that, in previous work, was shown to be capable of hundreds of table tennis rallies with a human and has the ability to precisely return the ball to desired targets. This system puts together a highly optimized perception subsystem, a high-speed low-latency robot controller, a simulation paradigm that can prevent damage in the real world and also train policies for zero-shot transfer, and automated real world environment resets that enable autonomous training and evaluation on physical robots. We complement a complete system description, including numerous design decisions that are typically not widely disseminated, with a collection of studies that clarify the importance of mitigating various sources of latency, accounting for training and deployment distribution shifts, robustness of the perception system, sensitivity to policy hyper-parameters, and choice of action space. A video demonstrating the components of the system and details of experimental results can be found at https://youtu.be/uFcnWjB42I0.
PDF70December 15, 2024