Aprendizado de Políticas de Robôs para Perseguição-Evasão Baseadas em Visão
Learning Vision-based Pursuit-Evasion Robot Policies
August 30, 2023
Autores: Andrea Bajcsy, Antonio Loquercio, Ashish Kumar, Jitendra Malik
cs.AI
Resumo
Aprender comportamentos estratégicos em robôs -- como os necessários em interações de perseguição-evasão -- sob restrições do mundo real é extremamente desafiador. Isso requer explorar a dinâmica da interação e planejar considerando tanto a incerteza do estado físico quanto a intenção latente. Neste artigo, transformamos esse problema intratável em um problema de aprendizado supervisionado, onde uma política de robô totalmente observável gera supervisão para uma política parcialmente observável. Descobrimos que a qualidade do sinal de supervisão para a política de perseguidor parcialmente observável depende de dois fatores-chave: o equilíbrio entre diversidade e otimalidade do comportamento do evasor e a força das suposições de modelagem na política totalmente observável. Implantamos nossa política em um robô quadrúpede físico com uma câmera RGB-D em interações de perseguição-evasão em ambientes reais. Apesar de todos os desafios, as restrições de sensoriamento estimulam a criatividade: o robô é impulsionado a coletar informações quando incerto, prever intenções a partir de medições ruidosas e antecipar para interceptar. Página do projeto: https://abajcsy.github.io/vision-based-pursuit/
English
Learning strategic robot behavior -- like that required in pursuit-evasion
interactions -- under real-world constraints is extremely challenging. It
requires exploiting the dynamics of the interaction, and planning through both
physical state and latent intent uncertainty. In this paper, we transform this
intractable problem into a supervised learning problem, where a
fully-observable robot policy generates supervision for a partially-observable
one. We find that the quality of the supervision signal for the
partially-observable pursuer policy depends on two key factors: the balance of
diversity and optimality of the evader's behavior and the strength of the
modeling assumptions in the fully-observable policy. We deploy our policy on a
physical quadruped robot with an RGB-D camera on pursuit-evasion interactions
in the wild. Despite all the challenges, the sensing constraints bring about
creativity: the robot is pushed to gather information when uncertain, predict
intent from noisy measurements, and anticipate in order to intercept. Project
webpage: https://abajcsy.github.io/vision-based-pursuit/