Het leren van visiegebaseerde beleidsregels voor achtervolgings-ontwijkingsrobots
Learning Vision-based Pursuit-Evasion Robot Policies
August 30, 2023
Auteurs: Andrea Bajcsy, Antonio Loquercio, Ashish Kumar, Jitendra Malik
cs.AI
Samenvatting
Het leren van strategisch robotgedrag -- zoals vereist in achtervolgings- en ontwijkingsinteracties -- onder real-world beperkingen is buitengewoon uitdagend. Het vereist het benutten van de dynamiek van de interactie en het plannen door zowel fysieke toestand als latente intentieonzekerheid. In dit artikel transformeren we dit onhanteerbare probleem naar een supervised learning-probleem, waarbij een volledig waarneembaar robotbeleid supervisie genereert voor een gedeeltelijk waarneembaar beleid. We ontdekken dat de kwaliteit van het supervisiesignaal voor het gedeeltelijk waarneembare achtervolgersbeleid afhangt van twee cruciale factoren: de balans tussen diversiteit en optimaliteit van het gedrag van de ontwijker en de sterkte van de modelaannames in het volledig waarneembare beleid. We implementeren ons beleid op een fysieke viervoetige robot met een RGB-D-camera voor achtervolgings- en ontwijkingsinteracties in de praktijk. Ondanks alle uitdagingen brengen de sensorische beperkingen creativiteit teweeg: de robot wordt gedwongen om informatie te verzamelen bij onzekerheid, intentie te voorspellen uit ruisige metingen en anticiperend te handelen om te onderscheppen. Projectwebpagina: https://abajcsy.github.io/vision-based-pursuit/
English
Learning strategic robot behavior -- like that required in pursuit-evasion
interactions -- under real-world constraints is extremely challenging. It
requires exploiting the dynamics of the interaction, and planning through both
physical state and latent intent uncertainty. In this paper, we transform this
intractable problem into a supervised learning problem, where a
fully-observable robot policy generates supervision for a partially-observable
one. We find that the quality of the supervision signal for the
partially-observable pursuer policy depends on two key factors: the balance of
diversity and optimality of the evader's behavior and the strength of the
modeling assumptions in the fully-observable policy. We deploy our policy on a
physical quadruped robot with an RGB-D camera on pursuit-evasion interactions
in the wild. Despite all the challenges, the sensing constraints bring about
creativity: the robot is pushed to gather information when uncertain, predict
intent from noisy measurements, and anticipate in order to intercept. Project
webpage: https://abajcsy.github.io/vision-based-pursuit/