Descobrindo Algoritmos Simbólicos Adaptáveis do Zero
Discovering Adaptable Symbolic Algorithms from Scratch
July 31, 2023
Autores: Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real
cs.AI
Resumo
Robôs autônomos implantados no mundo real precisarão de políticas de controle que se adaptem rapidamente a mudanças ambientais. Para isso, propomos o AutoRobotics-Zero (ARZ), um método baseado no AutoML-Zero que descobre políticas adaptáveis zero-shot do zero. Em contraste com as políticas de adaptação de redes neurais, onde apenas os parâmetros do modelo são otimizados, o ARZ pode construir algoritmos de controle com todo o poder expressivo de uma máquina de registros lineares. Evoluímos políticas modulares que ajustam seus parâmetros de modelo e alteram seu algoritmo de inferência em tempo real para se adaptar a mudanças ambientais repentinas. Demonstramos nosso método em um robô quadrúpede simulado realista, para o qual evoluímos políticas de controle seguras que evitam quedas quando membros individuais quebram subitamente. Esta é uma tarefa desafiadora na qual duas redes neurais populares de referência falham. Por fim, realizamos uma análise detalhada do nosso método em uma nova e desafiadora tarefa de controle não estacionário chamada Cataclysmic Cartpole. Os resultados confirmam nossas descobertas de que o ARZ é significativamente mais robusto a mudanças ambientais repentinas e pode construir políticas de controle simples e interpretáveis.
English
Autonomous robots deployed in the real world will need control policies that
rapidly adapt to environmental changes. To this end, we propose
AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot
adaptable policies from scratch. In contrast to neural network adaption
policies, where only model parameters are optimized, ARZ can build control
algorithms with the full expressive power of a linear register machine. We
evolve modular policies that tune their model parameters and alter their
inference algorithm on-the-fly to adapt to sudden environmental changes. We
demonstrate our method on a realistic simulated quadruped robot, for which we
evolve safe control policies that avoid falling when individual limbs suddenly
break. This is a challenging task in which two popular neural network baselines
fail. Finally, we conduct a detailed analysis of our method on a novel and
challenging non-stationary control task dubbed Cataclysmic Cartpole. Results
confirm our findings that ARZ is significantly more robust to sudden
environmental changes and can build simple, interpretable control policies.