Lernen von visuell basierten Verfolgungs- und Fluchtstrategien für Roboter
Learning Vision-based Pursuit-Evasion Robot Policies
August 30, 2023
Autoren: Andrea Bajcsy, Antonio Loquercio, Ashish Kumar, Jitendra Malik
cs.AI
Zusammenfassung
Das Erlernen strategischen Roboterverhaltens – wie es bei Verfolgungs- und Fluchtinteraktionen erforderlich ist – unter realen Bedingungen ist äußerst anspruchsvoll. Es erfordert die Nutzung der Dynamik der Interaktion sowie die Planung unter Berücksichtigung von Unsicherheiten sowohl im physischen Zustand als auch in den latenten Absichten. In diesem Artikel transformieren wir dieses schwer lösbare Problem in ein überwachtes Lernproblem, bei dem eine vollständig beobachtbare Roboterpolitik die Überwachung für eine teilweise beobachtbare Politik generiert. Wir stellen fest, dass die Qualität des Überwachungssignals für die teilweise beobachtbare Verfolgerpolitik von zwei Schlüsselfaktoren abhängt: dem Gleichgewicht zwischen Vielfalt und Optimalität des Verhaltens des Flüchtenden und der Stärke der Modellannahmen in der vollständig beobachtbaren Politik. Wir setzen unsere Politik auf einem physischen Vierbeinerroboter mit einer RGB-D-Kamera bei Verfolgungs- und Fluchtinteraktionen in der realen Welt ein. Trotz aller Herausforderungen führen die Sensorikbeschränkungen zu Kreativität: Der Roboter wird dazu gedrängt, bei Unsicherheit Informationen zu sammeln, Absichten aus verrauschten Messungen vorherzusagen und vorauszuplanen, um abzufangen. Projektwebseite: https://abajcsy.github.io/vision-based-pursuit/
English
Learning strategic robot behavior -- like that required in pursuit-evasion
interactions -- under real-world constraints is extremely challenging. It
requires exploiting the dynamics of the interaction, and planning through both
physical state and latent intent uncertainty. In this paper, we transform this
intractable problem into a supervised learning problem, where a
fully-observable robot policy generates supervision for a partially-observable
one. We find that the quality of the supervision signal for the
partially-observable pursuer policy depends on two key factors: the balance of
diversity and optimality of the evader's behavior and the strength of the
modeling assumptions in the fully-observable policy. We deploy our policy on a
physical quadruped robot with an RGB-D camera on pursuit-evasion interactions
in the wild. Despite all the challenges, the sensing constraints bring about
creativity: the robot is pushed to gather information when uncertain, predict
intent from noisy measurements, and anticipate in order to intercept. Project
webpage: https://abajcsy.github.io/vision-based-pursuit/