FARE: 高速-低速エージェント型ロボット探査
FARE: Fast-Slow Agentic Robotic Exploration
January 21, 2026
著者: Shuhao Liao, Xuxin Lv, Jeric Lew, Shizhe Zhang, Jingsong Liang, Peizhuo Li, Yuhong Cao, Wenjun Wu, Guillaume Sartoretti
cs.AI
要旨
本研究は、エージェントレベルの意味論的推論と高速な局所制御を統合することで、自律ロボット探査を発展させます。我々は、大規模言語モデル(LLM)による大域的な推論と、強化学習(RL)ポリシーによる局所的な意思決定を統合した階層型自律探査フレームワーク「FARE」を提案します。FAREは高速-低速思考パラダイムに従います。低速思考のLLMモジュールは、未知環境の簡潔なテキスト記述を解釈し、エージェントレベルの探査戦略を生成します。この戦略は、トポロジカルグラフを通じて一連の大域的なウェイポイントに具体化されます。推論効率をさらに向上させるため、このモジュールは冗長なグラフ構造を削減するモジュラリティベースの剪定メカニズムを採用します。高速思考のRLモジュールは、LLMが生成した大域的なウェイポイントの導きを受けながら、局所観測に反応して探査を実行します。RLポリシーは、大域ウェイポイントへの従順性を促進する報酬項によってさらに調整され、一貫性と堅牢性のある閉ループ動作を実現します。このアーキテクチャは、意味論的推論と幾何学的決定を分離し、各モジュールが適切な時間的・空間的スケールで動作することを可能にします。困難なシミュレーション環境における実験結果は、FAREが最先端のベースライン手法を大幅に上回る探査効率を達成することを示しています。さらに、FAREを実機に導入し、複雑で大規模な200m×130mの建物環境においてその有効性を検証しました。
English
This work advances autonomous robot exploration by integrating agent-level semantic reasoning with fast local control. We introduce FARE, a hierarchical autonomous exploration framework that integrates a large language model (LLM) for global reasoning with a reinforcement learning (RL) policy for local decision making. FARE follows a fast-slow thinking paradigm. The slow-thinking LLM module interprets a concise textual description of the unknown environment and synthesizes an agent-level exploration strategy, which is then grounded into a sequence of global waypoints through a topological graph. To further improve reasoning efficiency, this module employs a modularity-based pruning mechanism that reduces redundant graph structures. The fast-thinking RL module executes exploration by reacting to local observations while being guided by the LLM-generated global waypoints. The RL policy is additionally shaped by a reward term that encourages adherence to the global waypoints, enabling coherent and robust closed-loop behavior. This architecture decouples semantic reasoning from geometric decision, allowing each module to operate in its appropriate temporal and spatial scale. In challenging simulated environments, our results show that FARE achieves substantial improvements in exploration efficiency over state-of-the-art baselines. We further deploy FARE on hardware and validate it in complex, large scale 200mtimes130m building environment.