ChatPaper.aiChatPaper

제어를 위한 일반화된 동역학 모델

A Generalist Dynamics Model for Control

May 18, 2023
저자: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI

초록

우리는 제어를 위한 동역학 모델(TDMs)로서 트랜스포머 시퀀스 모델의 활용을 연구한다. DeepMind 제어 스위트에서 진행한 여러 실험을 통해, 첫째, TDMs가 단일 환경 학습 설정에서 기준 모델들과 비교했을 때 우수한 성능을 보인다는 것을 확인했다. 둘째, TDMs는 새로운 환경에 대한 강력한 일반화 능력을 보여주었는데, 이는 소량의 대상 환경 데이터로 일반화 모델을 미세 조정하는 few-shot 설정과 추가 학습 없이 일반화 모델을 새로운 환경에 적용하는 zero-shot 설정 모두에서 나타났다. 또한, 시스템 동역학을 일반화하는 것이 최적의 행동을 직접 정책으로 일반화하는 것보다 훨씬 더 효과적일 수 있음을 보여준다. 이는 TDMs가 제어를 위한 기초 모델의 유망한 구성 요소가 될 수 있음을 시사한다.
English
We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.
PDF10December 15, 2024