ObjectReact: Lernen objektrelativer Steuerung für visuelle Navigation
ObjectReact: Learning Object-Relative Control for Visual Navigation
September 11, 2025
papers.authors: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
cs.AI
papers.abstract
Die visuelle Navigation mit nur einer einzelnen Kamera und einer topologischen Karte hat sich in letzter Zeit als attraktive Alternative zu Methoden etabliert, die zusätzliche Sensoren und 3D-Karten erfordern. Dies wird typischerweise durch einen „bildrelativen“ Ansatz erreicht, bei dem die Steuerung aus einem gegebenen Paar aus aktueller Beobachtung und Zielbild geschätzt wird. Allerdings haben bildbasierte Repräsentationen der Welt ihre Grenzen, da Bilder streng an die Pose und die physische Verkörperung des Agenten gebunden sind. Im Gegensatz dazu bieten Objekte, als Eigenschaft der Karte, eine verkörperungs- und trajektorieninvariante Weltrepräsentation. In dieser Arbeit stellen wir ein neues Paradigma des Lernens einer „objektrelativen“ Steuerung vor, das mehrere wünschenswerte Eigenschaften aufweist: a) neue Routen können durchlaufen werden, ohne strikt vorherige Erfahrungen nachahmen zu müssen, b) das Problem der Steuerungsvorhersage kann vom Lösen des Bildabgleichproblems entkoppelt werden, und c) eine hohe Invarianz kann bei der cross-verkörperungsbasierten Bereitstellung für Variationen sowohl in Trainings-Test- als auch in Kartierungs-Ausführungsszenarien erreicht werden. Wir schlagen eine topometrische Kartenrepräsentation in Form eines „relativen“ 3D-Szenengraphen vor, die verwendet wird, um informativere objektbasierte globale Pfadplanungskosten zu erhalten. Wir trainieren einen lokalen Controller, genannt „ObjectReact“, der direkt auf einer hochrangigen „WayObject Costmap“-Repräsentation basiert und den Bedarf an expliziten RGB-Eingaben eliminiert. Wir demonstrieren die Vorteile des Lernens einer objektrelativen Steuerung gegenüber ihrem bildrelativen Gegenstück bei Variationen der Sensorhöhe und in mehreren Navigationsaufgaben, die das zugrunde liegende räumliche Verständnis herausfordern, z. B. das Navigieren einer Kartentrajektorie in umgekehrter Richtung. Wir zeigen weiterhin, dass unsere rein simulierte Policy gut auf reale Indoor-Umgebungen verallgemeinern kann. Code und ergänzendes Material sind über die Projektseite zugänglich: https://object-react.github.io/
English
Visual navigation using only a single camera and a topological map has
recently become an appealing alternative to methods that require additional
sensors and 3D maps. This is typically achieved through an "image-relative"
approach to estimating control from a given pair of current observation and
subgoal image. However, image-level representations of the world have
limitations because images are strictly tied to the agent's pose and
embodiment. In contrast, objects, being a property of the map, offer an
embodiment- and trajectory-invariant world representation. In this work, we
present a new paradigm of learning "object-relative" control that exhibits
several desirable characteristics: a) new routes can be traversed without
strictly requiring to imitate prior experience, b) the control prediction
problem can be decoupled from solving the image matching problem, and c) high
invariance can be achieved in cross-embodiment deployment for variations across
both training-testing and mapping-execution settings. We propose a topometric
map representation in the form of a "relative" 3D scene graph, which is used to
obtain more informative object-level global path planning costs. We train a
local controller, dubbed "ObjectReact", conditioned directly on a high-level
"WayObject Costmap" representation that eliminates the need for an explicit RGB
input. We demonstrate the advantages of learning object-relative control over
its image-relative counterpart across sensor height variations and multiple
navigation tasks that challenge the underlying spatial understanding
capability, e.g., navigating a map trajectory in the reverse direction. We
further show that our sim-only policy is able to generalize well to real-world
indoor environments. Code and supplementary material are accessible via project
page: https://object-react.github.io/