ChatPaper.aiChatPaper

FARE: 고속-저속 에이전트 기반 로봇 탐사

FARE: Fast-Slow Agentic Robotic Exploration

January 21, 2026
저자: Shuhao Liao, Xuxin Lv, Jeric Lew, Shizhe Zhang, Jingsong Liang, Peizhuo Li, Yuhong Cao, Wenjun Wu, Guillaume Sartoretti
cs.AI

초록

본 연구는 에이전트 수준의 의미론적 추론과 빠른 지역 제어를 통합하여 자율 로봇 탐사의 성능을 향상시킨다. 우리는 전역 추론을 위한 대규모 언어 모델(LLM)과 지역 의사 결정을 위한 강화 학습(RL) 정책을 통합한 계층적 자율 탐사 프레임워크인 FARE를 제안한다. FARE는 빠른-느린 사고 패러다임을 따른다. 느린 사고 LLM 모듈은 미지 환경에 대한 간결한 텍스트 설명을 해석하고 에이전트 수준의 탐사 전략을 종합하며, 이를 위상 그래프를 통해 일련의 전역 경유점으로 구체화한다. 추론 효율을 더욱 향상시키기 위해 이 모듈은 중복 그래프 구조를 줄이는 모듈성 기반 프루닝 메커니즘을 사용한다. 빠른 사고 RL 모듈은 LLM이 생성한 전역 경유점의 안내를 받으면서 지역 관측에 반응하여 탐사를 실행한다. RL 정책은 전역 경유점 준수를 장려하는 보상 항목을 추가로 적용하여 일관되고 견고한 폐루프 행동을 가능하게 한다. 이 아키텍처는 의미론적 추론과 기하학적 의사 결정을 분리하여 각 모듈이 적절한 시간 및 공간 규모에서 작동할 수 있도록 한다. 도전적인 시뮬레이션 환경에서 우리의 결과는 FARE가 최첨단 베이스라인 대비 탐사 효율성에서 상당한 향상을 달성함을 보여준다. 우리는 FARE를 하드웨어에 추가로 배포하여 복잡하고 대규모인 200m×130m 건물 환경에서 그 성능을 검증한다.
English
This work advances autonomous robot exploration by integrating agent-level semantic reasoning with fast local control. We introduce FARE, a hierarchical autonomous exploration framework that integrates a large language model (LLM) for global reasoning with a reinforcement learning (RL) policy for local decision making. FARE follows a fast-slow thinking paradigm. The slow-thinking LLM module interprets a concise textual description of the unknown environment and synthesizes an agent-level exploration strategy, which is then grounded into a sequence of global waypoints through a topological graph. To further improve reasoning efficiency, this module employs a modularity-based pruning mechanism that reduces redundant graph structures. The fast-thinking RL module executes exploration by reacting to local observations while being guided by the LLM-generated global waypoints. The RL policy is additionally shaped by a reward term that encourages adherence to the global waypoints, enabling coherent and robust closed-loop behavior. This architecture decouples semantic reasoning from geometric decision, allowing each module to operate in its appropriate temporal and spatial scale. In challenging simulated environments, our results show that FARE achieves substantial improvements in exploration efficiency over state-of-the-art baselines. We further deploy FARE on hardware and validate it in complex, large scale 200mtimes130m building environment.
PDF40January 23, 2026