ObjectReact : Apprentissage du contrôle relatif aux objets pour la navigation visuelle
ObjectReact: Learning Object-Relative Control for Visual Navigation
September 11, 2025
papers.authors: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
cs.AI
papers.abstract
La navigation visuelle utilisant uniquement une seule caméra et une carte topologique est récemment devenue une alternative attrayante aux méthodes nécessitant des capteurs supplémentaires et des cartes 3D. Cela est généralement réalisé grâce à une approche « relative à l'image » pour estimer le contrôle à partir d'une paire donnée d'observation actuelle et d'image de sous-objectif. Cependant, les représentations du monde au niveau de l'image ont des limites, car les images sont strictement liées à la pose et à l'incarnation de l'agent. En revanche, les objets, étant une propriété de la carte, offrent une représentation du monde invariante à l'incarnation et à la trajectoire. Dans ce travail, nous présentons un nouveau paradigme d'apprentissage du contrôle « relatif aux objets » qui présente plusieurs caractéristiques souhaitables : a) de nouveaux itinéraires peuvent être parcourus sans nécessiter strictement l'imitation d'expériences antérieures, b) le problème de prédiction du contrôle peut être découplé de la résolution du problème de correspondance d'images, et c) une invariance élevée peut être obtenue dans le déploiement inter-incarnation pour les variations entre les paramètres d'entraînement-test et de cartographie-exécution. Nous proposons une représentation de carte topométrique sous la forme d'un graphe de scène 3D « relatif », utilisé pour obtenir des coûts de planification de chemin global plus informatifs au niveau des objets. Nous entraînons un contrôleur local, nommé « ObjectReact », conditionné directement sur une représentation de haut niveau appelée « WayObject Costmap », qui élimine le besoin d'une entrée RGB explicite. Nous démontrons les avantages de l'apprentissage du contrôle relatif aux objets par rapport à son homologue relatif à l'image, à travers des variations de hauteur de capteur et plusieurs tâches de navigation qui mettent à l'épreuve la capacité de compréhension spatiale sous-jacente, par exemple, naviguer sur une trajectoire de carte dans le sens inverse. Nous montrons en outre que notre politique uniquement simulée est capable de bien généraliser aux environnements intérieurs réels. Le code et le matériel supplémentaire sont accessibles via la page du projet : https://object-react.github.io/
English
Visual navigation using only a single camera and a topological map has
recently become an appealing alternative to methods that require additional
sensors and 3D maps. This is typically achieved through an "image-relative"
approach to estimating control from a given pair of current observation and
subgoal image. However, image-level representations of the world have
limitations because images are strictly tied to the agent's pose and
embodiment. In contrast, objects, being a property of the map, offer an
embodiment- and trajectory-invariant world representation. In this work, we
present a new paradigm of learning "object-relative" control that exhibits
several desirable characteristics: a) new routes can be traversed without
strictly requiring to imitate prior experience, b) the control prediction
problem can be decoupled from solving the image matching problem, and c) high
invariance can be achieved in cross-embodiment deployment for variations across
both training-testing and mapping-execution settings. We propose a topometric
map representation in the form of a "relative" 3D scene graph, which is used to
obtain more informative object-level global path planning costs. We train a
local controller, dubbed "ObjectReact", conditioned directly on a high-level
"WayObject Costmap" representation that eliminates the need for an explicit RGB
input. We demonstrate the advantages of learning object-relative control over
its image-relative counterpart across sensor height variations and multiple
navigation tasks that challenge the underlying spatial understanding
capability, e.g., navigating a map trajectory in the reverse direction. We
further show that our sim-only policy is able to generalize well to real-world
indoor environments. Code and supplementary material are accessible via project
page: https://object-react.github.io/