ChatPaper.aiChatPaper

ObjectReact: 시각적 탐색을 위한 객체 상대적 제어 학습

ObjectReact: Learning Object-Relative Control for Visual Navigation

September 11, 2025
저자: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
cs.AI

초록

단일 카메라와 위상 지도만을 사용한 시각적 탐색은 최근 추가 센서와 3D 지도를 요구하는 방법들에 비해 매력적인 대안으로 부상하고 있습니다. 이는 일반적으로 현재 관측 이미지와 서브골(subgoal) 이미지 쌍을 통해 제어를 추정하는 "이미지 상대적(image-relative)" 접근 방식으로 달성됩니다. 그러나 세계를 이미지 수준으로 표현하는 방식에는 한계가 있는데, 이는 이미지가 에이전트의 자세와 구현 방식에 엄격하게 연결되어 있기 때문입니다. 반면, 객체는 지도의 속성으로서 구현 방식과 궤적에 불변적인 세계 표현을 제공합니다. 본 연구에서는 여러 가지 바람직한 특성을 보이는 "객체 상대적(object-relative)" 제어 학습의 새로운 패러다임을 제시합니다: a) 이전 경험을 엄격하게 모방할 필요 없이 새로운 경로를 탐색할 수 있으며, b) 제어 예측 문제를 이미지 매칭 문제 해결과 분리할 수 있고, c) 훈련-테스트 및 매핑-실행 설정 간의 변동에 대해 높은 불변성을 달성할 수 있습니다. 우리는 "상대적" 3D 장면 그래프 형태의 위상-기하학적(topometric) 지도 표현을 제안하며, 이를 통해 더 많은 정보를 제공하는 객체 수준의 전역 경로 계획 비용을 얻습니다. 우리는 "ObjectReact"라고 명명된 로컬 컨트롤러를 고수준의 "WayObject Costmap" 표현에 직접 조건화하여 명시적인 RGB 입력의 필요성을 제거합니다. 우리는 센서 높이 변동과 공간 이해 능력을 시험하는 다양한 탐색 작업(예: 지도 궤적을 역방향으로 탐색)에서 객체 상대적 제어 학습이 이미지 상대적 제어에 비해 갖는 장점을 입증합니다. 또한, 시뮬레이션 전용 정책이 실제 실내 환경으로 잘 일반화될 수 있음을 보여줍니다. 코드와 보충 자료는 프로젝트 페이지(https://object-react.github.io/)를 통해 확인할 수 있습니다.
English
Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map, offer an embodiment- and trajectory-invariant world representation. In this work, we present a new paradigm of learning "object-relative" control that exhibits several desirable characteristics: a) new routes can be traversed without strictly requiring to imitate prior experience, b) the control prediction problem can be decoupled from solving the image matching problem, and c) high invariance can be achieved in cross-embodiment deployment for variations across both training-testing and mapping-execution settings. We propose a topometric map representation in the form of a "relative" 3D scene graph, which is used to obtain more informative object-level global path planning costs. We train a local controller, dubbed "ObjectReact", conditioned directly on a high-level "WayObject Costmap" representation that eliminates the need for an explicit RGB input. We demonstrate the advantages of learning object-relative control over its image-relative counterpart across sensor height variations and multiple navigation tasks that challenge the underlying spatial understanding capability, e.g., navigating a map trajectory in the reverse direction. We further show that our sim-only policy is able to generalize well to real-world indoor environments. Code and supplementary material are accessible via project page: https://object-react.github.io/
PDF21September 12, 2025