Открытие адаптируемых символических алгоритмов с нуля
Discovering Adaptable Symbolic Algorithms from Scratch
July 31, 2023
Авторы: Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real
cs.AI
Аннотация
Автономные роботы, развернутые в реальном мире, потребуют стратегий управления, способных быстро адаптироваться к изменениям окружающей среды. Для достижения этой цели мы предлагаем AutoRobotics-Zero (ARZ) — метод, основанный на AutoML-Zero, который позволяет находить стратегии, адаптируемые с нуля без предварительного обучения. В отличие от стратегий адаптации на основе нейронных сетей, где оптимизируются только параметры модели, ARZ способен создавать алгоритмы управления с полной выразительной мощью линейной регистровой машины. Мы разрабатываем модульные стратегии, которые настраивают параметры модели и изменяют алгоритм вывода на лету для адаптации к внезапным изменениям среды. Мы демонстрируем наш метод на реалистичной симуляции четвероногого робота, для которого создаем безопасные стратегии управления, предотвращающие падение при внезапной поломке отдельных конечностей. Это сложная задача, с которой не справляются две популярные базовые модели на основе нейронных сетей. Наконец, мы проводим детальный анализ нашего метода на новой и сложной нестационарной задаче управления, названной "Катастрофический Cartpole". Результаты подтверждают, что ARZ значительно более устойчив к внезапным изменениям среды и способен создавать простые и интерпретируемые стратегии управления.
English
Autonomous robots deployed in the real world will need control policies that
rapidly adapt to environmental changes. To this end, we propose
AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot
adaptable policies from scratch. In contrast to neural network adaption
policies, where only model parameters are optimized, ARZ can build control
algorithms with the full expressive power of a linear register machine. We
evolve modular policies that tune their model parameters and alter their
inference algorithm on-the-fly to adapt to sudden environmental changes. We
demonstrate our method on a realistic simulated quadruped robot, for which we
evolve safe control policies that avoid falling when individual limbs suddenly
break. This is a challenging task in which two popular neural network baselines
fail. Finally, we conduct a detailed analysis of our method on a novel and
challenging non-stationary control task dubbed Cataclysmic Cartpole. Results
confirm our findings that ARZ is significantly more robust to sudden
environmental changes and can build simple, interpretable control policies.