Adaptação Orientada pela Experiência de Estratégias de Raciocínio em Tempo de Inferência

Resumo

Permitir que sistemas de IA agentivos adaptem suas abordagens de resolução de problemas com base em interações pós-treinamento continua sendo um desafio fundamental. Embora sistemas que atualizam e mantêm uma memória durante o tempo de inferência tenham sido propostos, os projetos existentes apenas direcionam o sistema modificando a entrada textual para um modelo de linguagem ou agente, o que significa que eles não podem alterar parâmetros de amostragem, remover ferramentas, modificar *prompts* de sistema ou alternar entre paradigmas agentivos e de fluxo de trabalho. Por outro lado, sistemas que se adaptam de forma mais flexível exigem otimização offline e permanecem estáticos uma vez implantados. Apresentamos o *Experience-Guided Reasoner* (EGuR), que gera estratégias personalizadas – procedimentos computacionais completos envolvendo chamadas de LLM, ferramentas, parâmetros de amostragem e lógica de controle – dinamicamente no tempo de inferência, com base na experiência acumulada. Alcançamos isso usando uma metaestratégia baseada em LLM – uma estratégia que produz estratégias – permitindo a adaptação de todos os componentes da estratégia (*prompts*, parâmetros de amostragem, configurações de ferramentas e lógica de controle). O EGuR opera por meio de dois componentes: um *Guia* gera múltiplas estratégias candidatas condicionadas ao problema atual e a uma memória estruturada de experiências passadas, enquanto um *Consolidador* integra o *feedback* da execução para melhorar a geração de estratégias futuras. Isso produz estratégias completas e prontas para execução, otimizadas para cada problema, que podem ser armazenadas em cache, recuperadas e executadas conforme necessário, sem desperdício de recursos. Em cinco *benchmarks* desafiadores (AIME 2025, 3-SAT e três tarefas do Big Bench Extra Hard), o EGuR alcança melhorias de precisão de até 14% em relação às linhas de base mais fortes, enquanto reduz os custos computacionais em até 111 vezes, com ambas as métricas melhorando à medida que o sistema ganha experiência.

English

Enabling agentic AI systems to adapt their problem-solving approaches based on post-training interactions remains a fundamental challenge. While systems that update and maintain a memory at inference time have been proposed, existing designs only steer the system by modifying textual input to a language model or agent, which means that they cannot change sampling parameters, remove tools, modify system prompts, or switch between agentic and workflow paradigms. On the other hand, systems that adapt more flexibly require offline optimization and remain static once deployed. We present Experience-Guided Reasoner (EGuR), which generates tailored strategies -- complete computational procedures involving LLM calls, tools, sampling parameters, and control logic -- dynamically at inference time based on accumulated experience. We achieve this using an LLM-based meta-strategy -- a strategy that outputs strategies -- enabling adaptation of all strategy components (prompts, sampling parameters, tool configurations, and control logic). EGuR operates through two components: a Guide generates multiple candidate strategies conditioned on the current problem and structured memory of past experiences, while a Consolidator integrates execution feedback to improve future strategy generation. This produces complete, ready-to-run strategies optimized for each problem, which can be cached, retrieved, and executed as needed without wasting resources. Across five challenging benchmarks (AIME 2025, 3-SAT, and three Big Bench Extra Hard tasks), EGuR achieves up to 14% accuracy improvements over the strongest baselines while reducing computational costs by up to 111x, with both metrics improving as the system gains experience.