인터넷 비디오를 통한 가치 함수 사전 학습 기반 로봇 오프라인 강화 학습
Robotic Offline RL from Internet Videos via Value-Function Pre-Training
September 22, 2023
저자: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
cs.AI
초록
인터넷 데이터에 대한 사전 학습은 현대의 많은 머신러닝 시스템에서 광범위한 일반화를 위한 핵심 요소로 입증되었습니다. 로봇 강화 학습(RL)에서 이러한 능력을 가능하게 하려면 무엇이 필요할까요? 로봇 경험 데이터셋에서 학습하는 오프라인 RL 방법은 이전 데이터를 로봇 학습 파이프라인에 활용할 수 있는 한 가지 방법을 제공합니다. 그러나 이러한 방법은 비디오 데이터(예: Ego4D)와 "타입 불일치"가 있습니다. 비디오는 RL 방법에 필요한 행동이나 보상 주석 없이 관찰만 제공하기 때문입니다. 이 논문에서는 시간차 학습을 통해 가치 함수를 학습하는 방식으로 대규모 인간 비디오 데이터셋을 로봇 오프라인 RL에 활용하는 시스템을 개발합니다. 비디오 데이터셋에서 가치 학습을 수행하면 비디오 데이터에서 학습하는 다른 접근 방식보다 하위 로봇 오프라인 RL에 더 적합한 표현을 학습할 수 있음을 보여줍니다. 우리의 시스템인 V-PTR은 비디오 데이터에 대한 사전 학습의 이점과 다양한 로봇 데이터에서 학습하는 로봇 오프라인 RL 접근 방식을 결합하여 더 나은 성능, 견고한 행동, 광범위한 일반화를 보이는 조작 작업을 위한 가치 함수와 정책을 생성합니다. 실제 WidowX 로봇에서 여러 조작 작업을 수행할 때, 우리의 프레임워크는 기존 방법보다 크게 개선된 정책을 생성합니다. 비디오 및 추가 세부 정보는 https://dibyaghosh.com/vptr/에서 확인할 수 있습니다.
English
Pre-training on Internet data has proven to be a key ingredient for broad
generalization in many modern ML systems. What would it take to enable such
capabilities in robotic reinforcement learning (RL)? Offline RL methods, which
learn from datasets of robot experience, offer one way to leverage prior data
into the robotic learning pipeline. However, these methods have a "type
mismatch" with video data (such as Ego4D), the largest prior datasets available
for robotics, since video offers observation-only experience without the action
or reward annotations needed for RL methods. In this paper, we develop a system
for leveraging large-scale human video datasets in robotic offline RL, based
entirely on learning value functions via temporal-difference learning. We show
that value learning on video datasets learns representations that are more
conducive to downstream robotic offline RL than other approaches for learning
from video data. Our system, called V-PTR, combines the benefits of
pre-training on video data with robotic offline RL approaches that train on
diverse robot data, resulting in value functions and policies for manipulation
tasks that perform better, act robustly, and generalize broadly. On several
manipulation tasks on a real WidowX robot, our framework produces policies that
greatly improve over prior methods. Our video and additional details can be
found at https://dibyaghosh.com/vptr/