SePO : Agent de Prompt Auto-Évolutif pour l'Optimisation du Prompt Système

Résumé

L'optimisation des prompts système améliore le comportement des agents sans modifier le modèle sous-jacent, produisant des instructions lisibles par l'humain et indépendantes du modèle. Les méthodes existantes construisent un agent de prompt qui affine les prompts système des agents de tâche, mais laissent le propre prompt système de l'agent de prompt conçu manuellement et figé. Nous proposons l'Optimisation Auto-évolutive des Prompts (SePO), qui traite le prompt système de l'agent de prompt comme une cible d'optimisation au même titre que les prompts système des agents de tâche. SePO adopte une conception autoréférentielle. Un unique agent de prompt améliore à la fois les prompts système des agents de tâche et le sien propre, dans le cadre d'une recherche évolutionnaire ouverte qui maintient une archive de prompts candidats comme pierres de gué. L'apprentissage se déroule en deux étapes : le pré-entraînement fait évoluer l'agent de prompt sur un ensemble de tâches multiples, puis le fine-tuning l'applique à une tâche cible. Sur cinq benchmarks couvrant les mathématiques (AIME'25), le raisonnement abstrait (ARC-AGI-1), les sciences de niveau supérieur (GPQA), la génération de code (MBPP) et les puzzles logiques (Sudoku), SePO surpasse systématiquement Manual-CoT, TextGrad et MetaSPO, améliorant la précision moyenne de 4,49 points par rapport à Manual-CoT. La compétence d'optimisation des prompts issue du pré-entraînement se généralise également à des tâches qui ne font pas partie du mélange de pré-entraînement, plutôt que de mémoriser des prompts par tâche.

English

System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.