TRANSIC: 온라인 수정 학습을 통한 시뮬레이션-실제 정책 전이
TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction
May 16, 2024
저자: Yunfan Jiang, Chen Wang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei
cs.AI
초록
시뮬레이션에서 학습한 정책을 실제 세계로 전이하는 것은 범용 로봇을 가능하게 할 잠재력을 가지고 있습니다. 이 접근법의 주요 과제는 시뮬레이션-현실 간 격차(sim-to-real gap)를 해결하는 것입니다. 기존 방법들은 종종 사전에 도메인 특화 지식을 요구했습니다. 우리는 이러한 지식을 얻기 위한 직관적인 방법으로 인간이 실제 세계에서 로봇 정책 실행을 관찰하고 지원하도록 요청하는 것을 제안합니다. 로봇은 인간으로부터 학습하여 다양한 sim-to-real 격차를 해결할 수 있습니다. 우리는 인간-참여 프레임워크를 기반으로 성공적인 sim-to-real 전이를 가능하게 하는 데이터 기반 접근법인 TRANSIC을 제안합니다. TRANSIC은 인간이 개입과 온라인 수정을 통해 다양한 모델링되지 않은 sim-to-real 격차를 종합적으로 극복할 수 있도록 시뮬레이션 정책을 보강할 수 있게 합니다. 인간의 수정으로부터 잔여 정책을 학습하고 이를 시뮬레이션 정책과 통합하여 자율 실행을 가능하게 할 수 있습니다. 우리의 접근법이 가구 조립과 같은 복잡하고 접촉이 많은 조작 작업에서 성공적인 sim-to-real 전이를 달성할 수 있음을 보여줍니다. 시뮬레이션과 인간으로부터 학습한 정책의 시너지 통합을 통해 TRANSIC은 다양한, 종종 공존하는 sim-to-real 격차를 해결하는 종합적인 접근법으로 효과적입니다. 이는 인간의 노력에 따라 확장 가능한 매력적인 특성을 보여줍니다. 비디오와 코드는 https://transic-robot.github.io/에서 확인할 수 있습니다.
English
Learning in simulation and transferring the learned policy to the real world
has the potential to enable generalist robots. The key challenge of this
approach is to address simulation-to-reality (sim-to-real) gaps. Previous
methods often require domain-specific knowledge a priori. We argue that a
straightforward way to obtain such knowledge is by asking humans to observe and
assist robot policy execution in the real world. The robots can then learn from
humans to close various sim-to-real gaps. We propose TRANSIC, a data-driven
approach to enable successful sim-to-real transfer based on a human-in-the-loop
framework. TRANSIC allows humans to augment simulation policies to overcome
various unmodeled sim-to-real gaps holistically through intervention and online
correction. Residual policies can be learned from human corrections and
integrated with simulation policies for autonomous execution. We show that our
approach can achieve successful sim-to-real transfer in complex and
contact-rich manipulation tasks such as furniture assembly. Through synergistic
integration of policies learned in simulation and from humans, TRANSIC is
effective as a holistic approach to addressing various, often coexisting
sim-to-real gaps. It displays attractive properties such as scaling with human
effort. Videos and code are available at https://transic-robot.github.io/Summary
AI-Generated Summary