スクラッチから適応可能なシンボリックアルゴリズムを発見する

要旨

現実世界に展開される自律ロボットは、環境変化に迅速に適応する制御ポリシーを必要とします。この目的のために、我々はAutoML-Zeroに基づくAutoRobotics-Zero（ARZ）を提案します。ARZは、ゼロショット適応可能なポリシーをゼロから発見する手法です。ニューラルネットワークの適応ポリシーがモデルパラメータのみを最適化するのに対し、ARZは線形レジスタマシンの完全な表現力を活用して制御アルゴリズムを構築できます。我々は、モデルパラメータを調整し、推論アルゴリズムをその場で変更して急激な環境変化に適応するモジュール型ポリシーを進化させます。この手法を、現実的なシミュレーション環境における四足歩行ロボットに適用し、個々の脚が突然故障した際に転倒を回避する安全な制御ポリシーを進化させました。これは、2つの一般的なニューラルネットワークベースラインが失敗する困難なタスクです。最後に、Cataclysmic Cartpoleと呼ばれる新規で困難な非定常制御タスクにおいて、本手法の詳細な分析を行いました。その結果、ARZが急激な環境変化に対して著しく頑健であり、シンプルで解釈可能な制御ポリシーを構築できることが確認されました。

English

Autonomous robots deployed in the real world will need control policies that rapidly adapt to environmental changes. To this end, we propose AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot adaptable policies from scratch. In contrast to neural network adaption policies, where only model parameters are optimized, ARZ can build control algorithms with the full expressive power of a linear register machine. We evolve modular policies that tune their model parameters and alter their inference algorithm on-the-fly to adapt to sudden environmental changes. We demonstrate our method on a realistic simulated quadruped robot, for which we evolve safe control policies that avoid falling when individual limbs suddenly break. This is a challenging task in which two popular neural network baselines fail. Finally, we conduct a detailed analysis of our method on a novel and challenging non-stationary control task dubbed Cataclysmic Cartpole. Results confirm our findings that ARZ is significantly more robust to sudden environmental changes and can build simple, interpretable control policies.

スクラッチから適応可能なシンボリックアルゴリズムを発見する

Discovering Adaptable Symbolic Algorithms from Scratch

要旨

Support