FARE: Exploração Robótica Ágil com Agentes Rápidos e Lentos

Resumo

Este trabalho avança a exploração autónoma de robôs através da integração de raciocínio semântico a nível de agente com controlo local rápido. Apresentamos o FARE, uma estrutura hierárquica de exploração autónoma que integra um modelo de linguagem de grande escala (LLM) para raciocínio global com uma política de aprendizagem por reforço (RL) para tomada de decisão local. O FARE segue um paradigma de pensamento rápido-lento. O módulo de pensamento lento (LLM) interpreta uma descrição textual concisa do ambiente desconhecido e sintetiza uma estratégia de exploração a nível de agente, que é depois materializada numa sequência de pontos de passagem globais através de um grafo topológico. Para melhorar ainda mais a eficiência do raciocínio, este módulo emprega um mecanismo de poda baseado em modularidade que reduz estruturas de grafo redundantes. O módulo de pensamento rápido (RL) executa a exploração reagindo a observações locais, sendo simultaneamente guiado pelos pontos de passagem globais gerados pelo LLM. A política de RL é adicionalmente moldada por um termo de recompensa que incentiva a adesão aos pontos de passagem globais, permitindo um comportamento em ciclo fechado coerente e robusto. Esta arquitetura dissocia o raciocínio semântico da decisão geométrica, permitindo que cada módulo opere na sua escala temporal e espacial apropriada. Em ambientes simulados desafiadores, os nossos resultados mostram que o FARE alcança melhorias substanciais na eficiência de exploração em comparação com os métodos state-of-the-art. Implementamos ainda o FARE em hardware e validamo-lo num ambiente complexo e de grande escala (200m x 130m) de um edifício.

English

This work advances autonomous robot exploration by integrating agent-level semantic reasoning with fast local control. We introduce FARE, a hierarchical autonomous exploration framework that integrates a large language model (LLM) for global reasoning with a reinforcement learning (RL) policy for local decision making. FARE follows a fast-slow thinking paradigm. The slow-thinking LLM module interprets a concise textual description of the unknown environment and synthesizes an agent-level exploration strategy, which is then grounded into a sequence of global waypoints through a topological graph. To further improve reasoning efficiency, this module employs a modularity-based pruning mechanism that reduces redundant graph structures. The fast-thinking RL module executes exploration by reacting to local observations while being guided by the LLM-generated global waypoints. The RL policy is additionally shaped by a reward term that encourages adherence to the global waypoints, enabling coherent and robust closed-loop behavior. This architecture decouples semantic reasoning from geometric decision, allowing each module to operate in its appropriate temporal and spatial scale. In challenging simulated environments, our results show that FARE achieves substantial improvements in exploration efficiency over state-of-the-art baselines. We further deploy FARE on hardware and validate it in complex, large scale 200mtimes130m building environment.

FARE: Exploração Robótica Ágil com Agentes Rápidos e Lentos

FARE: Fast-Slow Agentic Robotic Exploration

Resumo

Support