SePO: Selbstentwickelnder Prompt-Agent zur System-Prompt-Optimierung

Zusammenfassung

Optimierung des System-Prompts verbessert das Verhalten von Agenten, ohne das zugrundeliegende Modell zu verändern, und liefert menschenlesbare, modellunabhängige Anweisungen. Bestehende Methoden erstellen einen Prompt-Agenten, der die System-Prompts von Aufgabenagenten verfeinert, belassen jedoch den eigenen System-Prompt des Prompt-Agenten handgefertigt und fest. Wir schlagen die Selbstentwickelnde Prompt-Optimierung (SePO) vor, die den eigenen System-Prompt des Prompt-Agenten als Optimierungsziel neben den System-Prompts der Aufgabenagenten behandelt. SePO verwendet ein selbstreferenzielles Design: Ein einzelner Prompt-Agent verbessert sowohl die System-Prompts der Aufgabenagenten als auch seinen eigenen mittels einer offenen evolutionären Suche, die ein Archiv von Kandidaten-Prompts als Zwischenschritte unterhält. Das Training erfolgt in zwei Phasen: Im Vorabtraining wird der Prompt-Agent auf einem Multi-Task-Pool evolviert, und in der Feinabstimmung wird er anschließend auf eine Zielaufgabe angewendet. Über fünf Benchmarks hinweg – Mathematik (AIME'25), abstraktes Denken (ARC-AGI-1), wissenschaftliches Niveau auf Graduiertenebene (GPQA), Codegenerierung (MBPP) und Logikrätsel (Sudoku) – übertrifft SePO durchgängig Manual-CoT, TextGrad und MetaSPO und verbessert die durchschnittliche Genauigkeit um 4,49 Punkte im Vergleich zu Manual-CoT. Die Fähigkeit zur Prompt-Optimierung aus dem Vorabtraining verallgemeinert sich zudem auf Aufgaben, die über die Vorabtraining-Mischung hinausgehen, anstatt aufgabenspezifische Prompts auswendig zu lernen.

English

System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.