ObjectReact: Aprendizaje de Control Relativo a Objetos para Navegación Visual
ObjectReact: Learning Object-Relative Control for Visual Navigation
September 11, 2025
Autores: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
cs.AI
Resumen
La navegación visual utilizando únicamente una cámara y un mapa topológico ha
recientemente surgido como una alternativa atractiva a los métodos que requieren
sensores adicionales y mapas 3D. Esto se logra típicamente mediante un enfoque
"relativo a la imagen" para estimar el control a partir de un par dado de
observación actual e imagen de subobjetivo. Sin embargo, las representaciones
del mundo a nivel de imagen tienen limitaciones, ya que las imágenes están
estrictamente vinculadas a la pose y la encarnación del agente. En contraste,
los objetos, siendo una propiedad del mapa, ofrecen una representación del
mundo invariante a la encarnación y la trayectoria. En este trabajo,
presentamos un nuevo paradigma de aprendizaje de control "relativo a objetos"
que exhibe varias características deseables: a) se pueden recorrer nuevas rutas
sin necesidad estricta de imitar experiencias previas, b) el problema de
predicción de control puede desacoplarse de la resolución del problema de
emparejamiento de imágenes, y c) se puede lograr una alta invarianza en el
despliegue cruzado de encarnaciones para variaciones tanto en los entornos de
entrenamiento-prueba como en los de mapeo-ejecución. Proponemos una
representación de mapa topométrico en forma de un grafo de escena 3D "relativo",
que se utiliza para obtener costos de planificación de rutas globales más
informativos a nivel de objetos. Entrenamos un controlador local, denominado
"ObjectReact", condicionado directamente en una representación de alto nivel
llamada "WayObject Costmap", que elimina la necesidad de una entrada RGB
explícita. Demostramos las ventajas de aprender control relativo a objetos
frente a su contraparte relativa a la imagen en variaciones de altura de
sensores y múltiples tareas de navegación que desafían la capacidad subyacente
de comprensión espacial, por ejemplo, navegar una trayectoria de mapa en
dirección inversa. Además, mostramos que nuestra política entrenada solo en
simulación es capaz de generalizar bien a entornos interiores del mundo real.
El código y material complementario están disponibles en la página del proyecto:
https://object-react.github.io/
English
Visual navigation using only a single camera and a topological map has
recently become an appealing alternative to methods that require additional
sensors and 3D maps. This is typically achieved through an "image-relative"
approach to estimating control from a given pair of current observation and
subgoal image. However, image-level representations of the world have
limitations because images are strictly tied to the agent's pose and
embodiment. In contrast, objects, being a property of the map, offer an
embodiment- and trajectory-invariant world representation. In this work, we
present a new paradigm of learning "object-relative" control that exhibits
several desirable characteristics: a) new routes can be traversed without
strictly requiring to imitate prior experience, b) the control prediction
problem can be decoupled from solving the image matching problem, and c) high
invariance can be achieved in cross-embodiment deployment for variations across
both training-testing and mapping-execution settings. We propose a topometric
map representation in the form of a "relative" 3D scene graph, which is used to
obtain more informative object-level global path planning costs. We train a
local controller, dubbed "ObjectReact", conditioned directly on a high-level
"WayObject Costmap" representation that eliminates the need for an explicit RGB
input. We demonstrate the advantages of learning object-relative control over
its image-relative counterpart across sensor height variations and multiple
navigation tasks that challenge the underlying spatial understanding
capability, e.g., navigating a map trajectory in the reverse direction. We
further show that our sim-only policy is able to generalize well to real-world
indoor environments. Code and supplementary material are accessible via project
page: https://object-react.github.io/