Aprendizaje de Políticas de Robots para Persecución-Evasión Basadas en Visión
Learning Vision-based Pursuit-Evasion Robot Policies
August 30, 2023
Autores: Andrea Bajcsy, Antonio Loquercio, Ashish Kumar, Jitendra Malik
cs.AI
Resumen
Aprender comportamientos estratégicos en robots -- como los requeridos en interacciones de persecución-evitación -- bajo las limitaciones del mundo real es extremadamente desafiante. Esto requiere explotar la dinámica de la interacción y planificar considerando tanto la incertidumbre del estado físico como la intención latente. En este artículo, transformamos este problema intratable en un problema de aprendizaje supervisado, donde una política de robot completamente observable genera supervisión para una parcialmente observable. Descubrimos que la calidad de la señal de supervisión para la política de persecución parcialmente observable depende de dos factores clave: el equilibrio entre diversidad y optimalidad del comportamiento del evasor y la solidez de los supuestos de modelado en la política completamente observable. Implementamos nuestra política en un robot cuadrúpedo físico con una cámara RGB-D para interacciones de persecución-evitación en entornos reales. A pesar de todos los desafíos, las limitaciones sensoriales fomentan la creatividad: el robot se ve impulsado a recopilar información cuando está inseguro, predecir intenciones a partir de mediciones ruidosas y anticiparse para interceptar. Página del proyecto: https://abajcsy.github.io/vision-based-pursuit/
English
Learning strategic robot behavior -- like that required in pursuit-evasion
interactions -- under real-world constraints is extremely challenging. It
requires exploiting the dynamics of the interaction, and planning through both
physical state and latent intent uncertainty. In this paper, we transform this
intractable problem into a supervised learning problem, where a
fully-observable robot policy generates supervision for a partially-observable
one. We find that the quality of the supervision signal for the
partially-observable pursuer policy depends on two key factors: the balance of
diversity and optimality of the evader's behavior and the strength of the
modeling assumptions in the fully-observable policy. We deploy our policy on a
physical quadruped robot with an RGB-D camera on pursuit-evasion interactions
in the wild. Despite all the challenges, the sensing constraints bring about
creativity: the robot is pushed to gather information when uncertain, predict
intent from noisy measurements, and anticipate in order to intercept. Project
webpage: https://abajcsy.github.io/vision-based-pursuit/