Optimisation améliorée des prompts avec moins de sollicitations
p1: Better Prompt Optimization with Fewer Prompts
April 9, 2026
Auteurs: Zhaolin Gao, Yu, Wang, Bo Liu, Thorsten Joachims, Kianté Brantley, Wen Sun
cs.AI
Résumé
L'optimisation de prompt améliore les modèles de langage sans mettre à jour leurs poids en recherchant un meilleur prompt système, mais son efficacité varie considérablement selon les tâches. Nous étudions ce qui rend une tâche propice à l'optimisation de prompt. Nous montrons que la variance de la performance entre différents prompts système peut être décomposée en deux composantes : la variance entre les réponses, qui capture la stochasticité de la génération, et la variance entre les prompts système, qui capture les différences de qualité des prompts système. L'optimisation de prompt réussit lorsque la variance entre les prompts système est suffisamment grande, mais échoue lorsque la variance entre les réponses domine la variance des prompts système. De manière surprenante, nous montrons en outre que l'augmentation du nombre de prompts utilisateur peut nuire à l'optimisation en réduisant la variance entre les prompts système, en particulier sur des ensembles de données hétérogènes où différents prompts utilisateur favorisent différents prompts système. Motivés par cette observation, nous proposons p1, une méthode simple de filtrage des prompts utilisateur qui sélectionne un petit sous-ensemble de prompts utilisateur présentant une variance élevée entre les prompts système candidats. Ce sous-ensemble de prompts utilisateur permet de distinguer un bon prompt système d'un mauvais, facilitant ainsi l'optimisation du système. Les expériences sur des benchmarks de raisonnement montrent que p1 améliore substantiellement l'optimisation de prompt par rapport à un entraînement sur l'ensemble complet des données et surpasse des méthodes de référence solides comme GEPA. Fait notable, l'entraînement sur seulement deux prompts issus de AIME 24 produit un prompt système qui se généralise bien à d'autres benchmarks de raisonnement.
English
Prompt optimization improves language models without updating their weights by searching for a better system prompt, but its effectiveness varies widely across tasks. We study what makes a task amenable to prompt optimization. We show that the reward variance across different system prompts can be decomposed into two components: variance among responses, which captures generation stochasticity, and variance among system prompts, which captures differences in system prompt quality. Prompt optimization succeeds when variance among system prompts is sufficiently large, but fails when variance among responses dominates the variance of the system prompts. Surprisingly, we further show that scaling to more user prompts can hurt optimization by reducing variance among system prompts, especially on heterogeneous datasets where different user prompts favor different system prompts. Motivated by this insight, we propose p1, a simple user prompt filtering method that selects a small subset of user prompts with high variance across candidate system prompts. This subset of user prompts allows one to distinguish a good system prompt from a bad one, making system optimization easier. Experiments on reasoning benchmarks show that p1 substantially improves prompt optimization over training on the full dataset and outperforms strong baselines such as GEPA. Notably, training on only two prompts from AIME 24 yields a system prompt that generalizes well to other reasoning benchmarks.