制御のための汎用ダイナミクスモデル

要旨

我々は、制御のためのダイナミクスモデル（TDM）としてTransformerシーケンスモデルを使用する方法を調査する。DeepMind制御スイートにおける一連の実験において、まず、TDMが単一環境学習設定においてベースラインモデルと比較して良好な性能を発揮することを確認した。次に、TDMは未見の環境に対する強い汎化能力を示し、少数ショット設定（汎用モデルがターゲット環境からの少量のデータでファインチューニングされる場合）とゼロショット設定（汎用モデルが追加のトレーニングなしで未見の環境に適用される場合）の両方で優れた性能を発揮した。さらに、システムダイナミクスを汎化することが、最適な行動を直接ポリシーとして汎化するよりもはるかに効果的であることを実証した。これにより、TDMは制御の基盤モデルとして有望な要素となっている。

English

We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.

制御のための汎用ダイナミクスモデル

A Generalist Dynamics Model for Control

要旨

Support