MAP: Een Eerst-in-kaart-brengen-dan-handelen-paradigma voor langetermijn interactieve agentredenering

Samenvatting

Huidige interactieve LLM-agenten vertrouwen op doelgeconditioneerde stapsgewijze planning, waarbij omgevingsbegrip reactief tijdens de uitvoering wordt verworven in plaats van vooraf te worden vastgesteld. Deze temporele omkering leidt tot Uitgestelde Omgevingsperceptie: agenten moeten omgevingsbeperkingen afleiden via trial-and-error, wat resulteert in een Epistemisch Knelpunt dat hen gevangenhoudt in ineffectieve faalcycli. Geïnspireerd door menselijke affordantieperceptie en cognitieve kaarttheorie stellen we het Eerst-Kaarten-Dan-Handelen Paradigma (MAP) voor, een plug-and-play raamwerk dat omgevingsbegrip vóór uitvoering plaatst. MAP bestaat uit drie fasen: (1) Globale Verkenning, het verwerven van omgevingsgenerieke voorkennis; (2) Taakspecifieke Kartering, het opbouwen van een gestructureerde cognitieve kaart; en (3) Kennisverrijkte Uitvoering, het oplossen van taken op basis van de kaart. Experimenten tonen consistente verbeteringen aan over benchmarks en LLM's. Op ARC-AGI-3 stelt MAP grensverleggende modellen in staat om in 22 van de 25 game-omgevingen een bijna-nul baselineprestatie te overtreffen. Verder introduceren we MAP-2K, een dataset van eerst-kaarten-dan-handelen-trajecten, en tonen we aan dat training hierop beter presteert dan expertuitvoeringssporen, wat suggereert dat het begrijpen van omgevingen fundamenteler is dan imitatie.

English

Current interactive LLM agents rely on goal-conditioned stepwise planning, where environmental understanding is acquired reactively during execution rather than established beforehand. This temporal inversion leads to Delayed Environmental Perception: agents must infer environmental constraints through trial-and-error, resulting in an Epistemic Bottleneck that traps them in inefficient failure cycles. Inspired by human affordance perception and cognitive map theory, we propose the Map-then-Act Paradigm (MAP), a plug-and-play framework that shifts environment understanding before execution. MAP consists of three stages: (1) Global Exploration, acquiring environment-general priors; (2) Task-Specific Mapping, constructing a structured cognitive map; and (3) Knowledge-Augmented Execution, solving tasks grounded on the map. Experiments show consistent gains across benchmarks and LLMs. On ARC-AGI-3, MAP enables frontier models to surpass near-zero baseline performance in 22 of 25 game environments. We further introduce MAP-2K, a dataset of map-then-act trajectories, and show that training on it outperforms expert execution traces, suggesting that understanding environments is more fundamental than imitation.