制御のための汎用ダイナミクスモデル
A Generalist Dynamics Model for Control
May 18, 2023
著者: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI
要旨
我々は、制御のためのダイナミクスモデル(TDM)としてTransformerシーケンスモデルを使用する方法を調査する。DeepMind制御スイートにおける一連の実験において、まず、TDMが単一環境学習設定においてベースラインモデルと比較して良好な性能を発揮することを確認した。次に、TDMは未見の環境に対する強い汎化能力を示し、少数ショット設定(汎用モデルがターゲット環境からの少量のデータでファインチューニングされる場合)とゼロショット設定(汎用モデルが追加のトレーニングなしで未見の環境に適用される場合)の両方で優れた性能を発揮した。さらに、システムダイナミクスを汎化することが、最適な行動を直接ポリシーとして汎化するよりもはるかに効果的であることを実証した。これにより、TDMは制御の基盤モデルとして有望な要素となっている。
English
We investigate the use of transformer sequence models as dynamics models
(TDMs) for control. In a number of experiments in the DeepMind control suite,
we find that first, TDMs perform well in a single-environment learning setting
when compared to baseline models. Second, TDMs exhibit strong generalization
capabilities to unseen environments, both in a few-shot setting, where a
generalist model is fine-tuned with small amounts of data from the target
environment, and in a zero-shot setting, where a generalist model is applied to
an unseen environment without any further training. We further demonstrate that
generalizing system dynamics can work much better than generalizing optimal
behavior directly as a policy. This makes TDMs a promising ingredient for a
foundation model of control.