ObjectReact: Обучение объектно-ориентированному управлению для визуальной навигации
ObjectReact: Learning Object-Relative Control for Visual Navigation
September 11, 2025
Авторы: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
cs.AI
Аннотация
Навигация с использованием только одной камеры и топологической карты в последнее время стала привлекательной альтернативой методам, требующим дополнительных сенсоров и 3D-карт. Обычно это достигается с помощью "относительно-изображенческого" подхода к оценке управления на основе пары текущего наблюдения и целевого изображения. Однако представления мира на уровне изображений имеют ограничения, поскольку изображения строго привязаны к позе и воплощению агента. В отличие от этого, объекты, являющиеся свойством карты, предлагают представление мира, инвариантное к воплощению и траектории. В данной работе мы представляем новую парадигму обучения "относительно-объектного" управления, которая демонстрирует несколько желательных характеристик: а) новые маршруты могут быть пройдены без строгой необходимости имитировать предыдущий опыт, б) задача прогнозирования управления может быть отделена от решения задачи сопоставления изображений, и в) может быть достигнута высокая инвариантность при кросс-воплощенческом развертывании для вариаций как в настройках обучения-тестирования, так и в настройках картографирования-исполнения. Мы предлагаем топометрическое представление карты в виде "относительного" 3D сценарного графа, который используется для получения более информативных затрат на глобальное планирование пути на уровне объектов. Мы обучаем локальный контроллер, названный "ObjectReact", непосредственно на основе высокоуровневого представления "WayObject Costmap", что устраняет необходимость в явном RGB-входе. Мы демонстрируем преимущества обучения относительно-объектного управления по сравнению с его относительно-изображенческим аналогом в условиях вариаций высоты сенсора и множественных задач навигации, которые проверяют базовую способность пространственного понимания, например, навигации по траектории карты в обратном направлении. Мы также показываем, что наша политика, обученная только на симуляции, способна хорошо обобщаться на реальные внутренние среды. Код и дополнительные материалы доступны на странице проекта: https://object-react.github.io/
English
Visual navigation using only a single camera and a topological map has
recently become an appealing alternative to methods that require additional
sensors and 3D maps. This is typically achieved through an "image-relative"
approach to estimating control from a given pair of current observation and
subgoal image. However, image-level representations of the world have
limitations because images are strictly tied to the agent's pose and
embodiment. In contrast, objects, being a property of the map, offer an
embodiment- and trajectory-invariant world representation. In this work, we
present a new paradigm of learning "object-relative" control that exhibits
several desirable characteristics: a) new routes can be traversed without
strictly requiring to imitate prior experience, b) the control prediction
problem can be decoupled from solving the image matching problem, and c) high
invariance can be achieved in cross-embodiment deployment for variations across
both training-testing and mapping-execution settings. We propose a topometric
map representation in the form of a "relative" 3D scene graph, which is used to
obtain more informative object-level global path planning costs. We train a
local controller, dubbed "ObjectReact", conditioned directly on a high-level
"WayObject Costmap" representation that eliminates the need for an explicit RGB
input. We demonstrate the advantages of learning object-relative control over
its image-relative counterpart across sensor height variations and multiple
navigation tasks that challenge the underlying spatial understanding
capability, e.g., navigating a map trajectory in the reverse direction. We
further show that our sim-only policy is able to generalize well to real-world
indoor environments. Code and supplementary material are accessible via project
page: https://object-react.github.io/