ChatPaper.aiChatPaper

制御のための汎用ダイナミクスモデル

A Generalist Dynamics Model for Control

May 18, 2023
著者: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI

要旨

我々は、制御のためのダイナミクスモデル(TDM)としてTransformerシーケンスモデルを使用する方法を調査する。DeepMind制御スイートにおける一連の実験において、まず、TDMが単一環境学習設定においてベースラインモデルと比較して良好な性能を発揮することを確認した。次に、TDMは未見の環境に対する強い汎化能力を示し、少数ショット設定(汎用モデルがターゲット環境からの少量のデータでファインチューニングされる場合)とゼロショット設定(汎用モデルが追加のトレーニングなしで未見の環境に適用される場合)の両方で優れた性能を発揮した。さらに、システムダイナミクスを汎化することが、最適な行動を直接ポリシーとして汎化するよりもはるかに効果的であることを実証した。これにより、TDMは制御の基盤モデルとして有望な要素となっている。
English
We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.
PDF10December 15, 2024