Обучение стратегиям преследования и уклонения для роботов на основе визуальных данных
Learning Vision-based Pursuit-Evasion Robot Policies
August 30, 2023
Авторы: Andrea Bajcsy, Antonio Loquercio, Ashish Kumar, Jitendra Malik
cs.AI
Аннотация
Обучение стратегическому поведению робота — например, необходимому в ситуациях преследования и уклонения — в условиях реального мира представляет собой крайне сложную задачу. Это требует использования динамики взаимодействия и планирования с учетом неопределенности как физического состояния, так и скрытых намерений. В данной работе мы преобразуем эту трудноразрешимую проблему в задачу обучения с учителем, где полностью наблюдаемая политика робота генерирует обучающие данные для частично наблюдаемой политики. Мы обнаруживаем, что качество обучающего сигнала для частично наблюдаемой политики преследователя зависит от двух ключевых факторов: баланса между разнообразием и оптимальностью поведения уклоняющегося и силы предположений модели в полностью наблюдаемой политике. Мы внедряем нашу политику на физическом четвероногом роботе с RGB-D камерой для взаимодействий преследования и уклонения в естественных условиях. Несмотря на все сложности, ограничения в восприятии стимулируют творческий подход: робот вынужден собирать информацию в условиях неопределенности, предсказывать намерения на основе зашумленных измерений и предвидеть события, чтобы перехватить цель. Веб-страница проекта: https://abajcsy.github.io/vision-based-pursuit/
English
Learning strategic robot behavior -- like that required in pursuit-evasion
interactions -- under real-world constraints is extremely challenging. It
requires exploiting the dynamics of the interaction, and planning through both
physical state and latent intent uncertainty. In this paper, we transform this
intractable problem into a supervised learning problem, where a
fully-observable robot policy generates supervision for a partially-observable
one. We find that the quality of the supervision signal for the
partially-observable pursuer policy depends on two key factors: the balance of
diversity and optimality of the evader's behavior and the strength of the
modeling assumptions in the fully-observable policy. We deploy our policy on a
physical quadruped robot with an RGB-D camera on pursuit-evasion interactions
in the wild. Despite all the challenges, the sensing constraints bring about
creativity: the robot is pushed to gather information when uncertain, predict
intent from noisy measurements, and anticipate in order to intercept. Project
webpage: https://abajcsy.github.io/vision-based-pursuit/