スクラッチから適応可能なシンボリックアルゴリズムを発見する
Discovering Adaptable Symbolic Algorithms from Scratch
July 31, 2023
著者: Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real
cs.AI
要旨
現実世界に展開される自律ロボットは、環境変化に迅速に適応する制御ポリシーを必要とします。この目的のために、我々はAutoML-Zeroに基づくAutoRobotics-Zero(ARZ)を提案します。ARZは、ゼロショット適応可能なポリシーをゼロから発見する手法です。ニューラルネットワークの適応ポリシーがモデルパラメータのみを最適化するのに対し、ARZは線形レジスタマシンの完全な表現力を活用して制御アルゴリズムを構築できます。我々は、モデルパラメータを調整し、推論アルゴリズムをその場で変更して急激な環境変化に適応するモジュール型ポリシーを進化させます。この手法を、現実的なシミュレーション環境における四足歩行ロボットに適用し、個々の脚が突然故障した際に転倒を回避する安全な制御ポリシーを進化させました。これは、2つの一般的なニューラルネットワークベースラインが失敗する困難なタスクです。最後に、Cataclysmic Cartpoleと呼ばれる新規で困難な非定常制御タスクにおいて、本手法の詳細な分析を行いました。その結果、ARZが急激な環境変化に対して著しく頑健であり、シンプルで解釈可能な制御ポリシーを構築できることが確認されました。
English
Autonomous robots deployed in the real world will need control policies that
rapidly adapt to environmental changes. To this end, we propose
AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot
adaptable policies from scratch. In contrast to neural network adaption
policies, where only model parameters are optimized, ARZ can build control
algorithms with the full expressive power of a linear register machine. We
evolve modular policies that tune their model parameters and alter their
inference algorithm on-the-fly to adapt to sudden environmental changes. We
demonstrate our method on a realistic simulated quadruped robot, for which we
evolve safe control policies that avoid falling when individual limbs suddenly
break. This is a challenging task in which two popular neural network baselines
fail. Finally, we conduct a detailed analysis of our method on a novel and
challenging non-stationary control task dubbed Cataclysmic Cartpole. Results
confirm our findings that ARZ is significantly more robust to sudden
environmental changes and can build simple, interpretable control policies.