GEPA: Reflectieve Prompt Evolutie Kan Reinforcement Learning Overtreffen

Samenvatting

Grote taalmodellen (LLMs) worden steeds vaker aangepast aan downstream taken via reinforcement learning (RL) methoden zoals Group Relative Policy Optimization (GRPO), die vaak duizenden rollouts vereisen om nieuwe taken te leren. Wij stellen dat de interpreteerbare aard van taal vaak een veel rijker leermedium kan bieden voor LLMs, vergeleken met beleidsgradiënten die zijn afgeleid van schaarse, scalaire beloningen. Om dit te testen, introduceren we GEPA (Genetic-Pareto), een prompt-optimalisator die grondig natuurlijke taalreflectie incorporeert om hoogwaardige regels te leren uit vallen en opstaan. Gegeven elk AI-systeem dat een of meer LLM-prompts bevat, bemonstert GEPA systeemniveau trajecten (bijv. redeneren, toolaanroepen en tooluitvoer) en reflecteert hierop in natuurlijke taal om problemen te diagnosticeren, prompt-updates voor te stellen en te testen, en complementaire lessen te combineren vanuit het Pareto-frontier van zijn eigen pogingen. Als gevolg van het ontwerp van GEPA kan het vaak zelfs maar een paar rollouts omzetten in een grote kwaliteitswinst. Over vier taken presteert GEPA gemiddeld 10% beter dan GRPO en tot wel 20%, terwijl het tot 35x minder rollouts gebruikt. GEPA presteert ook meer dan 10% beter dan de toonaangevende prompt-optimalisator, MIPROv2, over twee LLMs, en laat veelbelovende resultaten zien als een zoekstrategie tijdens inferentie voor code-optimalisatie.

English

Large language models (LLMs) are increasingly adapted to downstream tasks via reinforcement learning (RL) methods like Group Relative Policy Optimization (GRPO), which often require thousands of rollouts to learn new tasks. We argue that the interpretable nature of language can often provide a much richer learning medium for LLMs, compared with policy gradients derived from sparse, scalar rewards. To test this, we introduce GEPA (Genetic-Pareto), a prompt optimizer that thoroughly incorporates natural language reflection to learn high-level rules from trial and error. Given any AI system containing one or more LLM prompts, GEPA samples system-level trajectories (e.g., reasoning, tool calls, and tool outputs) and reflects on them in natural language to diagnose problems, propose and test prompt updates, and combine complementary lessons from the Pareto frontier of its own attempts. As a result of GEPA's design, it can often turn even just a few rollouts into a large quality gain. Across four tasks, GEPA outperforms GRPO by 10% on average and by up to 20%, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10% across two LLMs, and demonstrates promising results as an inference-time search strategy for code optimization.

GEPA: Reflectieve Prompt Evolutie Kan Reinforcement Learning Overtreffen

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Samenvatting

Support