Scoprire Algoritmi Simbolici Adattabili da Zero

Abstract

I robot autonomi dispiegati nel mondo reale avranno bisogno di politiche di controllo che si adattino rapidamente ai cambiamenti ambientali. A tal fine, proponiamo AutoRobotics-Zero (ARZ), un metodo basato su AutoML-Zero che scopre politiche adattabili zero-shot da zero. A differenza delle politiche di adattamento delle reti neurali, in cui vengono ottimizzati solo i parametri del modello, ARZ può costruire algoritmi di controllo con tutta la potenza espressiva di una macchina a registri lineari. Evolviamo politiche modulari che regolano i parametri del modello e modificano il loro algoritmo di inferenza al volo per adattarsi a improvvisi cambiamenti ambientali. Dimostriamo il nostro metodo su un robot quadrupede simulato realistico, per il quale evolviamo politiche di controllo sicure che evitano la caduta quando singoli arti si rompono improvvisamente. Si tratta di un compito impegnativo in cui due popolari baseline di reti neurali falliscono. Infine, conduciamo un'analisi dettagliata del nostro metodo su un nuovo e impegnativo compito di controllo non stazionario denominato Cataclysmic Cartpole. I risultati confermano le nostre scoperte che ARZ è significativamente più robusto ai cambiamenti ambientali improvvisi e può costruire politiche di controllo semplici e interpretabili.

English

Autonomous robots deployed in the real world will need control policies that rapidly adapt to environmental changes. To this end, we propose AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot adaptable policies from scratch. In contrast to neural network adaption policies, where only model parameters are optimized, ARZ can build control algorithms with the full expressive power of a linear register machine. We evolve modular policies that tune their model parameters and alter their inference algorithm on-the-fly to adapt to sudden environmental changes. We demonstrate our method on a realistic simulated quadruped robot, for which we evolve safe control policies that avoid falling when individual limbs suddenly break. This is a challenging task in which two popular neural network baselines fail. Finally, we conduct a detailed analysis of our method on a novel and challenging non-stationary control task dubbed Cataclysmic Cartpole. Results confirm our findings that ARZ is significantly more robust to sudden environmental changes and can build simple, interpretable control policies.

Scoprire Algoritmi Simbolici Adattabili da Zero

Discovering Adaptable Symbolic Algorithms from Scratch

Abstract

Support