ObjectReact: Leren van object-gerelateerde controle voor visuele navigatie

Samenvatting

Visuele navigatie met slechts één camera en een topologische kaart is recentelijk een aantrekkelijk alternatief geworden voor methoden die aanvullende sensoren en 3D-kaarten vereisen. Dit wordt doorgaans bereikt door een "beeld-relatieve" benadering om besturing te schatten op basis van een gegeven paar huidige observatie en subdoelbeeld. Beeldniveau-representaties van de wereld hebben echter beperkingen omdat beelden strikt gebonden zijn aan de pose en belichaming van de agent. Objecten daarentegen, als een eigenschap van de kaart, bieden een belichaming- en traject-onafhankelijke wereldrepresentatie. In dit werk presenteren we een nieuw paradigma voor het leren van "object-relatieve" besturing dat verschillende wenselijke kenmerken vertoont: a) nieuwe routes kunnen worden afgelegd zonder strikt te hoeven imiteren van eerdere ervaringen, b) het besturingsvoorspellingsprobleem kan worden ontkoppeld van het oplossen van het beeldmatchende probleem, en c) hoge invariantie kan worden bereikt bij cross-belichaming implementatie voor variaties in zowel trainings-test- als kaart-uitvoeringsinstellingen. We stellen een topometrische kaartrepresentatie voor in de vorm van een "relatieve" 3D-scenegrafiek, die wordt gebruikt om meer informatieve objectniveau globale padplanningskosten te verkrijgen. We trainen een lokale controller, genaamd "ObjectReact", die direct is geconditioneerd op een hoog niveau "WayObject Costmap" representatie die de noodzaak voor expliciete RGB-invoer elimineert. We demonstreren de voordelen van het leren van object-relatieve besturing ten opzichte van de beeld-relatieve tegenhanger bij variaties in sensorhoogte en meerdere navigatietaken die het onderliggende ruimtelijke begripsvermogen uitdagen, zoals het navigeren van een kaarttraject in de omgekeerde richting. We tonen verder aan dat ons sim-only beleid goed kan generaliseren naar echte binnenomgevingen. Code en aanvullend materiaal zijn toegankelijk via de projectpagina: https://object-react.github.io/

English

Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map, offer an embodiment- and trajectory-invariant world representation. In this work, we present a new paradigm of learning "object-relative" control that exhibits several desirable characteristics: a) new routes can be traversed without strictly requiring to imitate prior experience, b) the control prediction problem can be decoupled from solving the image matching problem, and c) high invariance can be achieved in cross-embodiment deployment for variations across both training-testing and mapping-execution settings. We propose a topometric map representation in the form of a "relative" 3D scene graph, which is used to obtain more informative object-level global path planning costs. We train a local controller, dubbed "ObjectReact", conditioned directly on a high-level "WayObject Costmap" representation that eliminates the need for an explicit RGB input. We demonstrate the advantages of learning object-relative control over its image-relative counterpart across sensor height variations and multiple navigation tasks that challenge the underlying spatial understanding capability, e.g., navigating a map trajectory in the reverse direction. We further show that our sim-only policy is able to generalize well to real-world indoor environments. Code and supplementary material are accessible via project page: https://object-react.github.io/

ObjectReact: Leren van object-gerelateerde controle voor visuele navigatie

ObjectReact: Learning Object-Relative Control for Visual Navigation

Samenvatting

Support