ChatPaper.aiChatPaper

ObjectReact : Apprentissage du contrôle relatif aux objets pour la navigation visuelle

ObjectReact: Learning Object-Relative Control for Visual Navigation

September 11, 2025
papers.authors: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
cs.AI

papers.abstract

La navigation visuelle utilisant uniquement une seule caméra et une carte topologique est récemment devenue une alternative attrayante aux méthodes nécessitant des capteurs supplémentaires et des cartes 3D. Cela est généralement réalisé grâce à une approche « relative à l'image » pour estimer le contrôle à partir d'une paire donnée d'observation actuelle et d'image de sous-objectif. Cependant, les représentations du monde au niveau de l'image ont des limites, car les images sont strictement liées à la pose et à l'incarnation de l'agent. En revanche, les objets, étant une propriété de la carte, offrent une représentation du monde invariante à l'incarnation et à la trajectoire. Dans ce travail, nous présentons un nouveau paradigme d'apprentissage du contrôle « relatif aux objets » qui présente plusieurs caractéristiques souhaitables : a) de nouveaux itinéraires peuvent être parcourus sans nécessiter strictement l'imitation d'expériences antérieures, b) le problème de prédiction du contrôle peut être découplé de la résolution du problème de correspondance d'images, et c) une invariance élevée peut être obtenue dans le déploiement inter-incarnation pour les variations entre les paramètres d'entraînement-test et de cartographie-exécution. Nous proposons une représentation de carte topométrique sous la forme d'un graphe de scène 3D « relatif », utilisé pour obtenir des coûts de planification de chemin global plus informatifs au niveau des objets. Nous entraînons un contrôleur local, nommé « ObjectReact », conditionné directement sur une représentation de haut niveau appelée « WayObject Costmap », qui élimine le besoin d'une entrée RGB explicite. Nous démontrons les avantages de l'apprentissage du contrôle relatif aux objets par rapport à son homologue relatif à l'image, à travers des variations de hauteur de capteur et plusieurs tâches de navigation qui mettent à l'épreuve la capacité de compréhension spatiale sous-jacente, par exemple, naviguer sur une trajectoire de carte dans le sens inverse. Nous montrons en outre que notre politique uniquement simulée est capable de bien généraliser aux environnements intérieurs réels. Le code et le matériel supplémentaire sont accessibles via la page du projet : https://object-react.github.io/
English
Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map, offer an embodiment- and trajectory-invariant world representation. In this work, we present a new paradigm of learning "object-relative" control that exhibits several desirable characteristics: a) new routes can be traversed without strictly requiring to imitate prior experience, b) the control prediction problem can be decoupled from solving the image matching problem, and c) high invariance can be achieved in cross-embodiment deployment for variations across both training-testing and mapping-execution settings. We propose a topometric map representation in the form of a "relative" 3D scene graph, which is used to obtain more informative object-level global path planning costs. We train a local controller, dubbed "ObjectReact", conditioned directly on a high-level "WayObject Costmap" representation that eliminates the need for an explicit RGB input. We demonstrate the advantages of learning object-relative control over its image-relative counterpart across sensor height variations and multiple navigation tasks that challenge the underlying spatial understanding capability, e.g., navigating a map trajectory in the reverse direction. We further show that our sim-only policy is able to generalize well to real-world indoor environments. Code and supplementary material are accessible via project page: https://object-react.github.io/
PDF21September 12, 2025