ChatPaper.aiChatPaper

BeTAIL: 인간 레이싱 게임 플레이에서의 행동 트랜스포머 적대적 모방 학습

BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay

February 22, 2024
저자: Catherine Weaver, Chen Tang, Ce Hao, Kenta Kawamoto, Masayoshi Tomizuka, Wei Zhan
cs.AI

초록

모방 학습은 수작업으로 설계된 보상 함수 없이도 시연 데이터로부터 정책을 학습합니다. 자율 주행 경주와 같은 많은 로봇 작업에서, 모방된 정책은 복잡한 환경 역학과 인간의 의사결정 과정을 모델링해야 합니다. 시퀀스 모델링은 복잡한 동작 시퀀스의 패턴을 효과적으로 포착하지만, 실제 로봇 작업에서 흔히 발생하는 새로운 환경이나 분포 변화에 적응하는 데 어려움을 겪습니다. 반면, 적대적 모방 학습(AIL)은 이러한 문제를 완화할 수 있지만, 샘플 효율성이 떨어지고 복잡한 동작 패턴을 처리하는 데 어려움을 겪습니다. 따라서 우리는 인간 시연 데이터로부터 학습된 Behavior Transformer(BeT) 정책과 온라인 AIL을 결합한 BeTAIL: Behavior Transformer Adversarial Imitation Learning을 제안합니다. BeTAIL은 BeT 정책에 AIL 잔여 정책을 추가하여 인간 전문가의 순차적 의사결정 과정을 모델링하고, 분포 외 상태나 환경 역학의 변화를 보정합니다. 우리는 BeTAIL을 Gran Turismo Sport에서 실제 인간 플레이어의 전문가 수준 시연 데이터를 사용한 세 가지 도전 과제에서 테스트했습니다. 우리가 제안한 잔여 BeTAIL은 환경 상호작용을 줄이고, BeT가 다운스트림 학습과 다른 트랙에서 사전 학습된 경우에도 경주 성능과 안정성을 향상시켰습니다. 비디오와 코드는 https://sites.google.com/berkeley.edu/BeTAIL/home에서 확인할 수 있습니다.
English
Imitation learning learns a policy from demonstrations without requiring hand-designed reward functions. In many robotic tasks, such as autonomous racing, imitated policies must model complex environment dynamics and human decision-making. Sequence modeling is highly effective in capturing intricate patterns of motion sequences but struggles to adapt to new environments or distribution shifts that are common in real-world robotics tasks. In contrast, Adversarial Imitation Learning (AIL) can mitigate this effect, but struggles with sample inefficiency and handling complex motion patterns. Thus, we propose BeTAIL: Behavior Transformer Adversarial Imitation Learning, which combines a Behavior Transformer (BeT) policy from human demonstrations with online AIL. BeTAIL adds an AIL residual policy to the BeT policy to model the sequential decision-making process of human experts and correct for out-of-distribution states or shifts in environment dynamics. We test BeTAIL on three challenges with expert-level demonstrations of real human gameplay in Gran Turismo Sport. Our proposed residual BeTAIL reduces environment interactions and improves racing performance and stability, even when the BeT is pretrained on different tracks than downstream learning. Videos and code available at: https://sites.google.com/berkeley.edu/BeTAIL/home.
PDF61December 15, 2024