SePO: Саморазвивающийся агент промптов для оптимизации системных промптов

Аннотация

Оптимизация системного промпта улучшает поведение агента без изменения базовой модели, создавая читаемые и независимые от модели инструкции. Существующие методы строят агента промптов, который уточняет системные промпты агентов задач, но при этом собственный системный промпт агента промптов остаётся разработанным вручную и фиксированным. Мы предлагаем Self-Evolving Prompt Optimization (SePO), который рассматривает системный промпт самого агента промптов как цель оптимизации наряду с системными промптами агентов задач. SePO использует самореферентную архитектуру: единый агент промптов улучшает как системные промпты агентов задач, так и свой собственный в рамках эволюционного поиска открытого типа, поддерживающего архив кандидатных промптов в качестве промежуточных этапов. Обучение проходит в два этапа: предварительное обучение развивает агента промптов на мультизадачном пуле, а донастройка затем применяет его к целевой задаче. На пяти бенчмарках, охватывающих математику (AIME'25), абстрактное мышление (ARC-AGI-1), науку уровня выпускника (GPQA), генерацию кода (MBPP) и логические головоломки (Sudoku), SePO стабильно превосходит Manual-CoT, TextGrad и MetaSPO, улучшая среднюю точность на 4,49 пункта по сравнению с Manual-CoT. Навык оптимизации промптов, приобретённый в ходе предварительного обучения, также обобщается на задачи, выходящие за пределы пула предварительного обучения, а не запоминает промпты для каждой отдельной задачи.

English

System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.