ObjectReact: Aprendendo Controle Relativo a Objetos para Navegação Visual
ObjectReact: Learning Object-Relative Control for Visual Navigation
September 11, 2025
Autores: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
cs.AI
Resumo
A navegação visual utilizando apenas uma única câmera e um mapa topológico tornou-se recentemente uma alternativa atraente aos métodos que exigem sensores adicionais e mapas 3D. Isso é tipicamente alcançado através de uma abordagem "relativa à imagem" para estimar o controle a partir de um par dado de observação atual e imagem de subobjetivo. No entanto, as representações do mundo no nível da imagem têm limitações, pois as imagens estão estritamente vinculadas à pose e à incorporação do agente. Em contraste, os objetos, sendo uma propriedade do mapa, oferecem uma representação do mundo invariante à incorporação e à trajetória. Neste trabalho, apresentamos um novo paradigma de aprendizado de controle "relativo ao objeto" que exibe várias características desejáveis: a) novas rotas podem ser percorridas sem a necessidade estrita de imitar experiências anteriores, b) o problema de previsão de controle pode ser desacoplado da resolução do problema de correspondência de imagens, e c) alta invariância pode ser alcançada na implantação cruzada de incorporações para variações entre configurações de treinamento-teste e mapeamento-execução. Propomos uma representação de mapa topométrico na forma de um grafo de cena 3D "relativo", que é usado para obter custos de planejamento de caminho global mais informativos no nível do objeto. Treinamos um controlador local, denominado "ObjectReact", condicionado diretamente a uma representação de alto nível do "Mapa de Custos WayObject", que elimina a necessidade de uma entrada RGB explícita. Demonstramos as vantagens do aprendizado de controle relativo ao objeto em relação à sua contraparte relativa à imagem em variações de altura do sensor e em múltiplas tarefas de navegação que desafiam a capacidade subjacente de compreensão espacial, por exemplo, navegar por uma trajetória de mapa na direção inversa. Além disso, mostramos que nossa política treinada apenas em simulação é capaz de generalizar bem para ambientes internos do mundo real. O código e material suplementar estão acessíveis através da página do projeto: https://object-react.github.io/
English
Visual navigation using only a single camera and a topological map has
recently become an appealing alternative to methods that require additional
sensors and 3D maps. This is typically achieved through an "image-relative"
approach to estimating control from a given pair of current observation and
subgoal image. However, image-level representations of the world have
limitations because images are strictly tied to the agent's pose and
embodiment. In contrast, objects, being a property of the map, offer an
embodiment- and trajectory-invariant world representation. In this work, we
present a new paradigm of learning "object-relative" control that exhibits
several desirable characteristics: a) new routes can be traversed without
strictly requiring to imitate prior experience, b) the control prediction
problem can be decoupled from solving the image matching problem, and c) high
invariance can be achieved in cross-embodiment deployment for variations across
both training-testing and mapping-execution settings. We propose a topometric
map representation in the form of a "relative" 3D scene graph, which is used to
obtain more informative object-level global path planning costs. We train a
local controller, dubbed "ObjectReact", conditioned directly on a high-level
"WayObject Costmap" representation that eliminates the need for an explicit RGB
input. We demonstrate the advantages of learning object-relative control over
its image-relative counterpart across sensor height variations and multiple
navigation tasks that challenge the underlying spatial understanding
capability, e.g., navigating a map trajectory in the reverse direction. We
further show that our sim-only policy is able to generalize well to real-world
indoor environments. Code and supplementary material are accessible via project
page: https://object-react.github.io/