ObjectReact: Apprendimento del Controllo Relativo agli Oggetti per la Navigazione Visiva
ObjectReact: Learning Object-Relative Control for Visual Navigation
September 11, 2025
Autori: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
cs.AI
Abstract
La navigazione visiva utilizzando solo una singola fotocamera e una mappa topologica è recentemente diventata un'alternativa interessante ai metodi che richiedono sensori aggiuntivi e mappe 3D. Questo è tipicamente ottenuto attraverso un approccio "relativo all'immagine" per stimare il controllo da una data coppia di osservazione corrente e immagine del sottobiettivo. Tuttavia, le rappresentazioni a livello di immagine del mondo hanno limitazioni perché le immagini sono strettamente legate alla posa e all'incarnazione dell'agente. Al contrario, gli oggetti, essendo una proprietà della mappa, offrono una rappresentazione del mondo invariante rispetto all'incarnazione e alla traiettoria. In questo lavoro, presentiamo un nuovo paradigma di apprendimento del controllo "relativo agli oggetti" che mostra diverse caratteristiche desiderabili: a) nuove rotte possono essere percorse senza la necessità di imitare strettamente esperienze precedenti, b) il problema della previsione del controllo può essere disaccoppiato dalla risoluzione del problema di corrispondenza delle immagini, e c) è possibile ottenere un'elevata invarianza nel dispiegamento cross-incarnazione per variazioni sia tra addestramento-testing che tra mappatura-esecuzione. Proponiamo una rappresentazione di mappa topometrica sotto forma di grafo di scena 3D "relativo", che viene utilizzato per ottenere costi di pianificazione del percorso globale più informativi a livello di oggetto. Addestriamo un controller locale, denominato "ObjectReact", condizionato direttamente su una rappresentazione ad alto livello di "WayObject Costmap" che elimina la necessità di un input RGB esplicito. Dimostriamo i vantaggi dell'apprendimento del controllo relativo agli oggetti rispetto alla sua controparte relativa all'immagine attraverso variazioni dell'altezza del sensore e molteplici compiti di navigazione che mettono alla prova la capacità di comprensione spaziale sottostante, ad esempio, navigare una traiettoria della mappa in direzione inversa. Mostriamo inoltre che la nostra politica basata solo su simulazione è in grado di generalizzare bene a ambienti reali interni. Il codice e il materiale supplementare sono accessibili tramite la pagina del progetto: https://object-react.github.io/
English
Visual navigation using only a single camera and a topological map has
recently become an appealing alternative to methods that require additional
sensors and 3D maps. This is typically achieved through an "image-relative"
approach to estimating control from a given pair of current observation and
subgoal image. However, image-level representations of the world have
limitations because images are strictly tied to the agent's pose and
embodiment. In contrast, objects, being a property of the map, offer an
embodiment- and trajectory-invariant world representation. In this work, we
present a new paradigm of learning "object-relative" control that exhibits
several desirable characteristics: a) new routes can be traversed without
strictly requiring to imitate prior experience, b) the control prediction
problem can be decoupled from solving the image matching problem, and c) high
invariance can be achieved in cross-embodiment deployment for variations across
both training-testing and mapping-execution settings. We propose a topometric
map representation in the form of a "relative" 3D scene graph, which is used to
obtain more informative object-level global path planning costs. We train a
local controller, dubbed "ObjectReact", conditioned directly on a high-level
"WayObject Costmap" representation that eliminates the need for an explicit RGB
input. We demonstrate the advantages of learning object-relative control over
its image-relative counterpart across sensor height variations and multiple
navigation tasks that challenge the underlying spatial understanding
capability, e.g., navigating a map trajectory in the reverse direction. We
further show that our sim-only policy is able to generalize well to real-world
indoor environments. Code and supplementary material are accessible via project
page: https://object-react.github.io/