FAPO: Optimización Completamente Autónoma de Prompts para Pipelines de LLM de Múltiples Pasos

Resumen

Los pipelines de LLM de múltiples pasos fallan debido a interacciones entre los pasos de recuperación, razonamiento y formateo, por lo que la optimización solo mediante prompts puede pasar por alto los cuellos de botella en la cadena. Presentamos FAPO (Fully Autonomous Prompt Optimization), un marco que permite a Claude Code optimizar un pipeline de LLM dentro de una base de código estandarizada. FAPO evalúa un pipeline, inspecciona los pasos intermedios, diagnostica fallos, propone cambios acotados y valida variantes repetidamente para optimizar en función de una función de puntuación. Primero intenta ediciones en los prompts y, solo cuando la optimización de prompts parece insuficiente, cambia la estructura de la cadena dentro del alcance permitido cuando la atribución identifica un cuello de botella estructural. En seis puntos de referencia y tres modelos de tarea, FAPO supera la línea base GEPA en 15 de 18 comparaciones modelo-punto de referencia. En 11 comparaciones modelo-punto de referencia, FAPO gana con rangos de media ± desviación estándar de prueba no superpuestos, y la ganancia media de FAPO sobre GEPA es de +14.1 pp. En las seis comparaciones de HoVer e IFBench donde la búsqueda primero en prompts escaló a cambios estructurales, FAPO gana las seis con una ganancia media de +33.8 pp. FAPO también mejora el rendimiento en tareas de seguridad: en CTIBench-RCM, una tarea de seguridad de CVE a CWE, FAPO solo con prompts aumenta la precisión de prueba en +4.0 pp en GPT-5, +7.1 pp en Foundation-Sec-8B-Instruct y +2.0 pp en Foundation-Sec-8B-Reasoning. Estos resultados posicionan a FAPO como una técnica de optimización de pipelines de vanguardia tanto para tareas de propósito general como para tareas centradas en seguridad.

English

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized codebase. FAPO evaluates a pipeline, inspects intermediate steps, diagnoses failures, proposes scoped changes, and validates variants repeatedly to optimize against a score function. It first tries prompt edits and, only when prompt optimization appears insufficient, changes chain structure within the permitted scope when attribution identifies a structural bottleneck. Across six benchmarks and three task models, FAPO beats the baseline GEPA in 15 of 18 model-benchmark comparisons. In 11 model-benchmark comparisons, FAPO wins with non-overlapping mean pm trial-standard-deviation ranges, and the mean FAPO-GEPA gain is +14.1 pp. In the six HoVer and IFBench comparisons where prompt-first search escalated to structural changes, FAPO wins all six with a mean gain of +33.8 pp. FAPO also improves performance on security tasks: on CTIBench-RCM, a security CVE-to-CWE task, prompt-only FAPO lifts test accuracy by +4.0 pp on GPT-5, +7.1 pp on Foundation-Sec-8B-Instruct, and +2.0 pp on Foundation-Sec-8B-Reasoning. These results position FAPO as a state-of-the-art pipeline optimization technique for both general-purpose and security-focused tasks.