GEPA: A Evolução Reflexiva de Prompts Pode Superar o Aprendizado por Reforço

Resumo

Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais adaptados para tarefas subsequentes por meio de métodos de aprendizado por reforço (RL), como o Group Relative Policy Optimization (GRPO), que frequentemente exigem milhares de execuções para aprender novas tarefas. Argumentamos que a natureza interpretável da linguagem pode fornecer um meio de aprendizado muito mais rico para LLMs, em comparação com gradientes de política derivados de recompensas esparsas e escalares. Para testar isso, introduzimos o GEPA (Genetic-Pareto), um otimizador de prompts que incorpora profundamente a reflexão em linguagem natural para aprender regras de alto nível por meio de tentativa e erro. Dado qualquer sistema de IA que contenha um ou mais prompts de LLM, o GEPA amostra trajetórias em nível de sistema (por exemplo, raciocínio, chamadas de ferramentas e saídas de ferramentas) e reflete sobre elas em linguagem natural para diagnosticar problemas, propor e testar atualizações de prompts, e combinar lições complementares da fronteira de Pareto de suas próprias tentativas. Como resultado do design do GEPA, ele pode frequentemente transformar até mesmo algumas execuções em um grande ganho de qualidade. Em quatro tarefas, o GEPA supera o GRPO em média 10% e até 20%, enquanto utiliza até 35 vezes menos execuções. O GEPA também supera o principal otimizador de prompts, MIPROv2, em mais de 10% em dois LLMs, e demonstra resultados promissores como uma estratégia de busca em tempo de inferência para otimização de código.

English

Large language models (LLMs) are increasingly adapted to downstream tasks via reinforcement learning (RL) methods like Group Relative Policy Optimization (GRPO), which often require thousands of rollouts to learn new tasks. We argue that the interpretable nature of language can often provide a much richer learning medium for LLMs, compared with policy gradients derived from sparse, scalar rewards. To test this, we introduce GEPA (Genetic-Pareto), a prompt optimizer that thoroughly incorporates natural language reflection to learn high-level rules from trial and error. Given any AI system containing one or more LLM prompts, GEPA samples system-level trajectories (e.g., reasoning, tool calls, and tool outputs) and reflects on them in natural language to diagnose problems, propose and test prompt updates, and combine complementary lessons from the Pareto frontier of its own attempts. As a result of GEPA's design, it can often turn even just a few rollouts into a large quality gain. Across four tasks, GEPA outperforms GRPO by 10% on average and by up to 20%, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10% across two LLMs, and demonstrates promising results as an inference-time search strategy for code optimization.

GEPA: A Evolução Reflexiva de Prompts Pode Superar o Aprendizado por Reforço

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Resumo

Support