Bessere Prompt-Optimierung mit weniger Prompts
p1: Better Prompt Optimization with Fewer Prompts
April 9, 2026
Autoren: Zhaolin Gao, Yu, Wang, Bo Liu, Thorsten Joachims, Kianté Brantley, Wen Sun
cs.AI
Zusammenfassung
Prompt-Optimierung verbessert Sprachmodelle, ohne deren Gewichte zu aktualisieren, indem sie nach einem besseren System-Prompt sucht, doch ihre Wirksamkeit variiert stark zwischen verschiedenen Aufgaben. Wir untersuchen, was eine Aufgabe für die Prompt-Optimierung geeignet macht. Wir zeigen, dass die Varianz der Belohnungswerte über verschiedene System-Prompts hinweg in zwei Komponenten zerlegt werden kann: die Varianz zwischen den Antworten, welche die Stochastizität der Generierung erfasst, und die Varianz zwischen den System-Prompts, welche die Unterschiede in der Qualität der System-Prompts erfasst. Die Prompt-Optimierung ist erfolgreich, wenn die Varianz zwischen den System-Prompts ausreichend groß ist, scheitert jedoch, wenn die Varianz zwischen den Antworten die Varianz der System-Prompts dominiert. Überraschenderweise zeigen wir weiterhin, dass die Skalierung auf mehr Benutzer-Prompts die Optimierung beeinträchtigen kann, indem sie die Varianz zwischen den System-Prompts verringert, insbesondere auf heterogenen Datensätzen, bei denen verschiedene Benutzer-Prompts unterschiedliche System-Prompts begünstigen. Angeregt durch diese Erkenntnis schlagen wir p1 vor, eine einfache Methode zur Filterung von Benutzer-Prompts, die eine kleine Teilmenge von Benutzer-Prompts mit hoher Varianz über die Kandidaten-System-Prompts hinweg auswählt. Diese Teilmenge von Benutzer-Prompts ermöglicht es, einen guten System-Prompt von einem schlechten zu unterscheiden und erleichtert so die Systemoptimierung. Experimente mit Reasoning-Benchmarks zeigen, dass p1 die Prompt-Optimierung im Vergleich zum Training auf dem vollständigen Datensatz erheblich verbessert und starke Baseline-Methoden wie GEPA übertrifft. Bemerkenswerterweise führt das Training mit nur zwei Prompts aus AIME 24 zu einem System-Prompt, der sich gut auf andere Reasoning-Benchmarks verallgemeinern lässt.
English
Prompt optimization improves language models without updating their weights by searching for a better system prompt, but its effectiveness varies widely across tasks. We study what makes a task amenable to prompt optimization. We show that the reward variance across different system prompts can be decomposed into two components: variance among responses, which captures generation stochasticity, and variance among system prompts, which captures differences in system prompt quality. Prompt optimization succeeds when variance among system prompts is sufficiently large, but fails when variance among responses dominates the variance of the system prompts. Surprisingly, we further show that scaling to more user prompts can hurt optimization by reducing variance among system prompts, especially on heterogeneous datasets where different user prompts favor different system prompts. Motivated by this insight, we propose p1, a simple user prompt filtering method that selects a small subset of user prompts with high variance across candidate system prompts. This subset of user prompts allows one to distinguish a good system prompt from a bad one, making system optimization easier. Experiments on reasoning benchmarks show that p1 substantially improves prompt optimization over training on the full dataset and outperforms strong baselines such as GEPA. Notably, training on only two prompts from AIME 24 yields a system prompt that generalizes well to other reasoning benchmarks.