FAPO: Otimização Totalmente Autônoma de Prompts em Pipelines de LLM de Múltiplas Etapas

Resumo

Pipelines de LLM de múltiplas etapas falham devido a interações entre etapas de recuperação, raciocínio e formatação, de modo que a otimização apenas de prompts pode deixar passar gargalos na cadeia. Apresentamos o FAPO (Otimização de Prompts Totalmente Autônoma), uma estrutura que permite que o Claude Code otimize um pipeline de LLM dentro de uma base de código padronizada. O FAPO avalia um pipeline, inspeciona etapas intermediárias, diagnostica falhas, propõe alterações no escopo e valida variantes repetidamente para otimizar uma função de pontuação. Primeiro, tenta edições nos prompts e, somente quando a otimização de prompts se mostra insuficiente, altera a estrutura da cadeia dentro do escopo permitido, quando a atribuição identifica um gargalo estrutural. Em seis benchmarks e três modelos de tarefa, o FAPO supera a linha de base GEPA em 15 de 18 comparações modelo-benchmark. Em 11 comparações modelo-benchmark, o FAPO vence com intervalos médios de desvio padrão por tentativa sem sobreposição, e o ganho médio FAPO-GEPA é de +14,1 pp. Nas seis comparações HoVer e IFBench em que a busca primeiramente por prompts escalou para mudanças estruturais, o FAPO vence todas as seis com ganho médio de +33,8 pp. O FAPO também melhora o desempenho em tarefas de segurança: no CTIBench-RCM, uma tarefa de segurança CVE para CWE, o FAPO apenas com prompts eleva a acurácia de teste em +4,0 pp no GPT-5, +7,1 pp no Foundation-Sec-8B-Instruct e +2,0 pp no Foundation-Sec-8B-Reasoning. Esses resultados posicionam o FAPO como uma técnica de otimização de pipelines de última geração para tarefas tanto de propósito geral quanto focadas em segurança.

English

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized codebase. FAPO evaluates a pipeline, inspects intermediate steps, diagnoses failures, proposes scoped changes, and validates variants repeatedly to optimize against a score function. It first tries prompt edits and, only when prompt optimization appears insufficient, changes chain structure within the permitted scope when attribution identifies a structural bottleneck. Across six benchmarks and three task models, FAPO beats the baseline GEPA in 15 of 18 model-benchmark comparisons. In 11 model-benchmark comparisons, FAPO wins with non-overlapping mean pm trial-standard-deviation ranges, and the mean FAPO-GEPA gain is +14.1 pp. In the six HoVer and IFBench comparisons where prompt-first search escalated to structural changes, FAPO wins all six with a mean gain of +33.8 pp. FAPO also improves performance on security tasks: on CTIBench-RCM, a security CVE-to-CWE task, prompt-only FAPO lifts test accuracy by +4.0 pp on GPT-5, +7.1 pp on Foundation-Sec-8B-Instruct, and +2.0 pp on Foundation-Sec-8B-Reasoning. These results position FAPO as a state-of-the-art pipeline optimization technique for both general-purpose and security-focused tasks.