MAP: Um Paradigma de Mapear-depois-Agir para Raciocínio Interativo de Agentes em Horizonte Longo

Resumo

Os agentes LLM interativos atuais dependem de planejamento passo a passo condicionado a objetivos, onde a compreensão do ambiente é adquirida de forma reativa durante a execução, em vez de estabelecida previamente. Essa inversão temporal leva à Percepção Ambiental Atrasada: os agentes devem inferir restrições ambientais por tentativa e erro, resultando em um Gargalo Epistêmico que os aprisiona em ciclos ineficientes de falha. Inspirados pela percepção de affordances e pela teoria do mapa cognitivo humanos, propomos o Paradigma Mapear-depois-Agir (MAP), uma estrutura plug-and-play que desloca a compreensão do ambiente para antes da execução. O MAP consiste em três estágios: (1) Exploração Global, adquirindo priores gerais do ambiente; (2) Mapeamento Específico da Tarefa, construindo um mapa cognitivo estruturado; e (3) Execução Aumentada por Conhecimento, resolvendo tarefas fundamentadas no mapa. Experimentos mostram ganhos consistentes em benchmarks e LLMs. No ARC-AGI-3, o MAP permite que modelos de fronteira superem o desempenho de linha de base próximo de zero em 22 dos 25 ambientes de jogo. Apresentamos ainda o MAP-2K, um conjunto de dados de trajetórias mapear-depois-agir, e mostramos que o treinamento nele supera os traços de execução especializada, sugerindo que compreender ambientes é mais fundamental do que a imitação.

English

Current interactive LLM agents rely on goal-conditioned stepwise planning, where environmental understanding is acquired reactively during execution rather than established beforehand. This temporal inversion leads to Delayed Environmental Perception: agents must infer environmental constraints through trial-and-error, resulting in an Epistemic Bottleneck that traps them in inefficient failure cycles. Inspired by human affordance perception and cognitive map theory, we propose the Map-then-Act Paradigm (MAP), a plug-and-play framework that shifts environment understanding before execution. MAP consists of three stages: (1) Global Exploration, acquiring environment-general priors; (2) Task-Specific Mapping, constructing a structured cognitive map; and (3) Knowledge-Augmented Execution, solving tasks grounded on the map. Experiments show consistent gains across benchmarks and LLMs. On ARC-AGI-3, MAP enables frontier models to surpass near-zero baseline performance in 22 of 25 game environments. We further introduce MAP-2K, a dataset of map-then-act trajectories, and show that training on it outperforms expert execution traces, suggesting that understanding environments is more fundamental than imitation.