FAPO : Optimisation totalement autonome des prompts pour pipelines LLM multi-étapes

Résumé

Les pipelines LLM multi-étapes échouent en raison des interactions entre les étapes de recherche, de raisonnement et de formatage, de sorte que l'optimisation par prompt seul peut passer à côté des goulets d'étranglement dans la chaîne. Nous présentons FAPO (Fully Autonomous Prompt Optimization), un framework qui permet à Claude Code d'optimiser un pipeline LLM dans une base de code standardisée. FAPO évalue un pipeline, inspecte les étapes intermédiaires, diagnostique les échecs, propose des modifications ciblées et valide itérativement des variantes afin d'optimiser par rapport à une fonction de score. Il tente d'abord des modifications de prompts et, uniquement lorsque l'optimisation des prompts semble insuffisante, modifie la structure de la chaîne dans le périmètre autorisé lorsque l'attribution identifie un goulet d'étranglement structurel. Sur six benchmarks et trois modèles de tâches, FAPO bat la baseline GEPA dans 15 des 18 comparaisons modèle-benchmark. Dans 11 comparaisons modèle-benchmark, FAPO l'emporte avec des intervalles de moyenne ± écart-type des essais non chevauchants, et le gain moyen FAPO-GEPA est de +14,1 points de pourcentage. Dans les six comparaisons HoVer et IFBench où la recherche prioritaire par prompts a débouché sur des modifications structurelles, FAPO remporte les six avec un gain moyen de +33,8 points de pourcentage. FAPO améliore également les performances sur des tâches de sécurité : sur CTIBench-RCM, une tâche de sécurité de type CVE-to-CWE, FAPO en mode prompt uniquement augmente la précision sur le test de +4,0 points de pourcentage sur GPT-5, +7,1 points sur Foundation-Sec-8B-Instruct et +2,0 points sur Foundation-Sec-8B-Reasoning. Ces résultats positionnent FAPO comme une technique d'optimisation de pipeline de pointe à la fois pour les tâches généralistes et celles axées sur la sécurité.

English

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized codebase. FAPO evaluates a pipeline, inspects intermediate steps, diagnoses failures, proposes scoped changes, and validates variants repeatedly to optimize against a score function. It first tries prompt edits and, only when prompt optimization appears insufficient, changes chain structure within the permitted scope when attribution identifies a structural bottleneck. Across six benchmarks and three task models, FAPO beats the baseline GEPA in 15 of 18 model-benchmark comparisons. In 11 model-benchmark comparisons, FAPO wins with non-overlapping mean pm trial-standard-deviation ranges, and the mean FAPO-GEPA gain is +14.1 pp. In the six HoVer and IFBench comparisons where prompt-first search escalated to structural changes, FAPO wins all six with a mean gain of +33.8 pp. FAPO also improves performance on security tasks: on CTIBench-RCM, a security CVE-to-CWE task, prompt-only FAPO lifts test accuracy by +4.0 pp on GPT-5, +7.1 pp on Foundation-Sec-8B-Instruct, and +2.0 pp on Foundation-Sec-8B-Reasoning. These results position FAPO as a state-of-the-art pipeline optimization technique for both general-purpose and security-focused tasks.