Apprendimento di Politiche per Robot di Inseguimento-Evasioni Basate sulla Visione
Learning Vision-based Pursuit-Evasion Robot Policies
August 30, 2023
Autori: Andrea Bajcsy, Antonio Loquercio, Ashish Kumar, Jitendra Malik
cs.AI
Abstract
L'apprendimento di comportamenti robotici strategici -- come quelli richiesti nelle interazioni di inseguimento-evasione -- sotto i vincoli del mondo reale è estremamente impegnativo. Richiede lo sfruttamento delle dinamiche dell'interazione e la pianificazione attraverso sia l'incertezza dello stato fisico che quella dell'intento latente. In questo articolo, trasformiamo questo problema intrattabile in un problema di apprendimento supervisionato, in cui una politica robotica completamente osservabile genera supervisione per una parzialmente osservabile. Scopriamo che la qualità del segnale di supervisione per la politica di inseguimento parzialmente osservabile dipende da due fattori chiave: l'equilibrio tra diversità e ottimalità del comportamento dell'evasore e la solidità delle assunzioni di modellazione nella politica completamente osservabile. Implementiamo la nostra politica su un robot quadrupede fisico dotato di una telecamera RGB-D per interazioni di inseguimento-evasione in ambienti reali. Nonostante tutte le sfide, i vincoli di percezione stimolano la creatività: il robot è spinto a raccogliere informazioni quando è incerto, a prevedere l'intento da misurazioni rumorose e ad anticipare per intercettare. Pagina web del progetto: https://abajcsy.github.io/vision-based-pursuit/
English
Learning strategic robot behavior -- like that required in pursuit-evasion
interactions -- under real-world constraints is extremely challenging. It
requires exploiting the dynamics of the interaction, and planning through both
physical state and latent intent uncertainty. In this paper, we transform this
intractable problem into a supervised learning problem, where a
fully-observable robot policy generates supervision for a partially-observable
one. We find that the quality of the supervision signal for the
partially-observable pursuer policy depends on two key factors: the balance of
diversity and optimality of the evader's behavior and the strength of the
modeling assumptions in the fully-observable policy. We deploy our policy on a
physical quadruped robot with an RGB-D camera on pursuit-evasion interactions
in the wild. Despite all the challenges, the sensing constraints bring about
creativity: the robot is pushed to gather information when uncertain, predict
intent from noisy measurements, and anticipate in order to intercept. Project
webpage: https://abajcsy.github.io/vision-based-pursuit/