SePO: Agente de Indicaciones Autoevolutivo para la Optimización de Indicaciones del Sistema

Resumen

La optimización de instrucciones del sistema mejora el comportamiento del agente sin modificar el modelo subyacente, generando instrucciones legibles para humanos y agnósticas al modelo. Los métodos existentes construyen un agente de instrucciones que refina las instrucciones del sistema de los agentes de tarea, pero dejan la propia instrucción del sistema del agente de instrucciones diseñada manualmente y fija. Proponemos la Optimización de Instrucciones Autoevolutiva (SePO, por sus siglas en inglés), que trata la propia instrucción del sistema del agente de instrucciones como un objetivo de optimización junto con las instrucciones del sistema de los agentes de tarea. SePO adopta un diseño autorreferencial. Un único agente de instrucciones mejora tanto las instrucciones del sistema de los agentes de tarea como las propias bajo una búsqueda evolutiva abierta que mantiene un archivo de instrucciones candidatas como peldaños. El entrenamiento procede en dos etapas: el preentrenamiento evoluciona al agente de instrucciones en un conjunto de múltiples tareas, y el ajuste fino lo aplica luego a una tarea objetivo. A través de cinco puntos de referencia que abarcan matemáticas (AIME'25), razonamiento abstracto (ARC-AGI-1), ciencias de posgrado (GPQA), generación de código (MBPP) y acertijos lógicos (Sudoku), SePO supera consistentemente a Manual-CoT, TextGrad y MetaSPO, mejorando la precisión promedio en 4.49 puntos en comparación con Manual-CoT. La habilidad de optimización de instrucciones del preentrenamiento también se generaliza a tareas fuera de la mezcla de preentrenamiento, en lugar de memorizar instrucciones por tarea.

English

System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.