Het Ontdekken van Aanpasbare Symbolische Algoritmen vanaf Nul
Discovering Adaptable Symbolic Algorithms from Scratch
July 31, 2023
Auteurs: Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real
cs.AI
Samenvatting
Autonome robots die in de echte wereld worden ingezet, hebben besturingsbeleid nodig dat zich snel aanpast aan veranderingen in de omgeving. Hiertoe stellen we AutoRobotics-Zero (ARZ) voor, een methode gebaseerd op AutoML-Zero die vanaf nul zero-shot aanpasbaar beleid ontdekt. In tegenstelling tot aanpassingsbeleid voor neurale netwerken, waarbij alleen modelparameters worden geoptimaliseerd, kan ARZ besturingsalgoritmen bouwen met de volledige expressieve kracht van een lineaire registermachine. We ontwikkelen modulair beleid dat zowel modelparameters afstelt als het inferentie-algoritme on-the-fly aanpast om zich te voegen naar plotselinge veranderingen in de omgeving. We demonstreren onze methode op een realistisch gesimuleerde viervoetige robot, waarvoor we veilig besturingsbeleid ontwikkelen dat voorkomt dat de robot valt wanneer individuele ledematen plotseling breken. Dit is een uitdagende taak waarin twee populaire neurale netwerk-baselines falen. Tot slot voeren we een gedetailleerde analyse uit van onze methode op een nieuwe en uitdagende niet-stationaire besturingstaak genaamd Cataclysmic Cartpole. De resultaten bevestigen onze bevindingen dat ARZ aanzienlijk robuuster is tegen plotselinge omgevingsveranderingen en eenvoudig, interpreteerbaar besturingsbeleid kan bouwen.
English
Autonomous robots deployed in the real world will need control policies that
rapidly adapt to environmental changes. To this end, we propose
AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot
adaptable policies from scratch. In contrast to neural network adaption
policies, where only model parameters are optimized, ARZ can build control
algorithms with the full expressive power of a linear register machine. We
evolve modular policies that tune their model parameters and alter their
inference algorithm on-the-fly to adapt to sudden environmental changes. We
demonstrate our method on a realistic simulated quadruped robot, for which we
evolve safe control policies that avoid falling when individual limbs suddenly
break. This is a challenging task in which two popular neural network baselines
fail. Finally, we conduct a detailed analysis of our method on a novel and
challenging non-stationary control task dubbed Cataclysmic Cartpole. Results
confirm our findings that ARZ is significantly more robust to sudden
environmental changes and can build simple, interpretable control policies.