Ervaring-Gestuurde Aanpassing van Redeneerstrategieën tijdens Inferentie

Samenvatting

Het mogelijk maken dat agent-gebaseerde AI-systemen hun probleemoplossende aanpak kunnen aanpassen op basis van interacties na de training blijft een fundamentele uitdaging. Hoewel systemen zijn voorgesteld die tijdens de inferentiefase een geheugen bijwerken en onderhouden, sturen bestaande ontwerpen het systeem alleen aan door tekstuele input naar een taalmodel of agent aan te passen. Dit betekent dat ze geen steekproefparameters kunnen wijzigen, tools kunnen verwijderen, systeemprompts kunnen aanpassen, of kunnen schakelen tussen agent-gebaseerde en workflow-paradigma's. Aan de andere kant vereisen systemen die flexibeler adapteren offline-optimalisatie en blijven ze statisch na implementatie. Wij presenteren de Experience-Guided Reasoner (EGuR), die op maat gemaakte strategieën – complete computationele procedures met LLM-aanroepen, tools, steekproefparameters en controlelogica – dynamisch genereert tijdens de inferentiefase, gebaseerd op opgebouwde ervaring. Wij bereiken dit met een op LLM gebaseerde metastrategie – een strategie die strategieën genereert – waardoor aanpassing van alle strategiecomponenten (prompts, steekproefparameters, toolconfiguraties en controlelogica) mogelijk wordt. EGuR werkt via twee componenten: een Gids genereert meerdere kandidaat-strategieën gebaseerd op het huidige probleem en een gestructureerd geheugen van eerdere ervaringen, terwijl een Consolidator uitvoeringsfeedback integreert om toekomstige strategiegeneratie te verbeteren. Dit produceert complete, direct uitvoerbare strategieën die zijn geoptimaliseerd voor elk probleem, welke naar behoefte kunnen worden gecached, opgehaald en uitgevoerd zonder verspilling van resources. Over vijf uitdagende benchmarks (AIME 2025, 3-SAT en drie Big Bench Extra Hard-taken) behaalt EGuR tot 14% nauwkeurigheidsverbetering ten opzichte van de sterkste baseline, terwijl de computationele kosten met tot 111x worden verminderd. Beide metrieken verbeteren naarmate het systeem ervaring opdoet.

English

Enabling agentic AI systems to adapt their problem-solving approaches based on post-training interactions remains a fundamental challenge. While systems that update and maintain a memory at inference time have been proposed, existing designs only steer the system by modifying textual input to a language model or agent, which means that they cannot change sampling parameters, remove tools, modify system prompts, or switch between agentic and workflow paradigms. On the other hand, systems that adapt more flexibly require offline optimization and remain static once deployed. We present Experience-Guided Reasoner (EGuR), which generates tailored strategies -- complete computational procedures involving LLM calls, tools, sampling parameters, and control logic -- dynamically at inference time based on accumulated experience. We achieve this using an LLM-based meta-strategy -- a strategy that outputs strategies -- enabling adaptation of all strategy components (prompts, sampling parameters, tool configurations, and control logic). EGuR operates through two components: a Guide generates multiple candidate strategies conditioned on the current problem and structured memory of past experiences, while a Consolidator integrates execution feedback to improve future strategy generation. This produces complete, ready-to-run strategies optimized for each problem, which can be cached, retrieved, and executed as needed without wasting resources. Across five challenging benchmarks (AIME 2025, 3-SAT, and three Big Bench Extra Hard tasks), EGuR achieves up to 14% accuracy improvements over the strongest baselines while reducing computational costs by up to 111x, with both metrics improving as the system gains experience.

Ervaring-Gestuurde Aanpassing van Redeneerstrategieën tijdens Inferentie

Experience-Guided Adaptation of Inference-Time Reasoning Strategies

Samenvatting

Support