ESCOPO: Evolução de Prompts para Aprimorar a Eficácia de Agentes

Resumo

Os agentes de Large Language Model (LLM) estão cada vez mais sendo implantados em ambientes que geram contextos massivos e dinâmicos. No entanto, um gargalo crítico persiste: embora os agentes tenham acesso a esse contexto, seus *prompts* estáticos carecem de mecanismos para gerenciá-lo eficazmente, levando a falhas recorrentes de Correção e Aprimoramento. Para abordar essa lacuna de capacidade, introduzimos o SCOPE (Otimização de Contexto de Autoevolução via Evolução de *Prompt*). O SCOPE enquadra a gestão de contexto como um problema de otimização online, sintetizando diretrizes a partir de traços de execução para evoluir automaticamente o *prompt* do agente. Propomos um mecanismo de Fluxo Duplo que equilibra a especificidade tática (resolver erros imediatos) com a generalidade estratégica (evoluir princípios de longo prazo). Além disso, introduzimos a Exploração Orientada por Perspectiva para maximizar a cobertura de estratégias, aumentando a probabilidade de o agente ter a estratégia correta para qualquer tarefa específica. Experimentos no benchmark HLE mostram que o SCOPE melhora as taxas de sucesso de tarefas de 14,23% para 38,64% sem intervenção humana. Disponibilizamos nosso código publicamente em https://github.com/JarvisPei/SCOPE.

English

Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bottleneck remains: while agents have access to this context, their static prompts lack the mechanisms to manage it effectively, leading to recurring Corrective and Enhancement failures. To address this capability gap, we introduce SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE frames context management as an online optimization problem, synthesizing guidelines from execution traces to automatically evolve the agent's prompt. We propose a Dual-Stream mechanism that balances tactical specificity (resolving immediate errors) with strategic generality (evolving long-term principles). Furthermore, we introduce Perspective-Driven Exploration to maximize strategy coverage, increasing the likelihood that the agent has the correct strategy for any given task. Experiments on the HLE benchmark show that SCOPE improves task success rates from 14.23\% to 38.64\% without human intervention. We make our code publicly available at https://github.com/JarvisPei/SCOPE.