SePO: Zelf-evoluerende promptagent voor systeempromptoptimalisatie

Samenvatting

Optimalisatie van systeemprompts verbetert het gedrag van agents zonder het onderliggende model aan te passen, en levert menselijk leesbare, modelagnostische instructies op. Bestaande methoden bouwen een promptagent die de systeemprompts van taakagents verfijnt, maar laten de eigen systeemprompt van de promptagent handmatig ontworpen en vaststaand. Wij stellen Self-Evolving Prompt Optimization (SePO) voor, dat de eigen systeemprompt van de promptagent behandelt als een optimalisatiedoel samen met de systeemprompts van taakagents. SePO hanteert een zelfreferentieel ontwerp: een enkele promptagent verbetert zowel de systeemprompts van taakagents als de eigen promptmiddels een open evolutionaire zoektocht die een archief van kandidaatprompts als tussenstappen bijhoudt. De training verloopt in twee fasen: voortraining evolueert de promptagent op een multitaakpool, en fijnafstemming past hem vervolgens toe op een doeltaak. Over vijf benchmarks die wiskunde (AIME'25), abstract redeneren (ARC-AGI-1), wetenschap op masterniveau (GPQA), codegeneratie (MBPP) en logische puzzels (Sudoku) omvatten, presteert SePO consistent beter dan Manual-CoT, TextGrad en MetaSPO, met een verbetering van de gemiddelde nauwkeurigheid met 4,49 punten ten opzichte van Manual-CoT. De vaardigheid in promptoptimalisatie uit de voortraining generaliseert ook naar taken buiten de voortrainingsmengeling, in plaats van het onthouden van prompts per taak.

English

System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.