SePO: Agente de Prompt Auto-Evolutivo para Otimização de Prompt de Sistema

Resumo

A otimização de prompts do sistema melhora o comportamento do agente sem modificar o modelo subjacente, gerando instruções legíveis por humanos e independentes de modelo. Métodos existentes constroem um agente de prompt que refina os prompts do sistema dos agentes de tarefa, mas deixam o próprio prompt do sistema do agente de prompt projetado manualmente e fixo. Propomos a Otimização de Prompts Auto-Evolutiva (SePO), que trata o prompt do sistema do próprio agente de prompt como um alvo de otimização, juntamente com os prompts do sistema dos agentes de tarefa. O SePO adota um design autorreferencial. Um único agente de prompt melhora tanto os prompts do sistema dos agentes de tarefa quanto o seu próprio, sob uma busca evolutiva aberta que mantém um arquivo de prompts candidatos como trampolins. O treinamento ocorre em dois estágios: o pré-treinamento evolui o agente de prompt em um conjunto multi-tarefa, e o ajuste fino então o aplica a uma tarefa alvo. Em cinco referenciais abrangendo matemática (AIME'25), raciocínio abstrato (ARC-AGI-1), ciência de nível de pós-graduação (GPQA), geração de código (MBPP) e quebra-cabeças lógicos (Sudoku), o SePO supera consistentemente o Manual-CoT, o TextGrad e o MetaSPO, melhorando a precisão média em 4,49 pontos em comparação com o Manual-CoT. A habilidade de otimização de prompts do pré-treinamento também generaliza para tarefas além da mistura de pré-treinamento, em vez de memorizar prompts por tarefa.

English

System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.