FAPO: Полностью автономная оптимизация промптов многошаговых LLM-пайплайнов

Аннотация

Многоэтапные LLM-пайплайны выходят из строя из-за взаимодействия между этапами извлечения, рассуждения и форматирования, поэтому оптимизация только промптов может не заметить узких мест в цепочке. Мы представляем FAPO (Fully Autonomous Prompt Optimization) — фреймворк, позволяющий Claude Code оптимизировать LLM-пайплайн в стандартизированной кодовой базе. FAPO оценивает пайплайн, проверяет промежуточные шаги, диагностирует сбои, предлагает ограниченные изменения и многократно проверяет варианты для оптимизации относительно функции оценки. Сначала он пытается редактировать промпты и только когда оптимизация промптов кажется недостаточной, изменяет структуру цепочки в разрешенных пределах, если атрибуция выявляет структурное узкое место. На шести тестовых наборах и трех моделях задач FAPO превосходит базовый GEPA в 15 из 18 сравнений модель-тест. В 11 сравнениях модель-тест FAPO побеждает с непересекающимися диапазонами среднего ± стандартное отклонение по испытаниям, а средний прирост FAPO над GEPA составляет +14,1 п.п. В шести сравнениях на HoVer и IFBench, где поиск с приоритетом промптов перешел к структурным изменениям, FAPO выигрывает все шесть со средним приростом +33,8 п.п. FAPO также улучшает производительность на задачах безопасности: на CTIBench-RCM, задаче сопоставления CVE с CWE в области безопасности, FAPO только с промптами повышает точность теста на +4,0 п.п. на GPT-5, +7,1 п.п. на Foundation-Sec-8B-Instruct и +2,0 п.п. на Foundation-Sec-8B-Reasoning. Эти результаты позиционируют FAPO как передовую технику оптимизации пайплайнов как для задач общего назначения, так и для задач безопасности.

English

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized codebase. FAPO evaluates a pipeline, inspects intermediate steps, diagnoses failures, proposes scoped changes, and validates variants repeatedly to optimize against a score function. It first tries prompt edits and, only when prompt optimization appears insufficient, changes chain structure within the permitted scope when attribution identifies a structural bottleneck. Across six benchmarks and three task models, FAPO beats the baseline GEPA in 15 of 18 model-benchmark comparisons. In 11 model-benchmark comparisons, FAPO wins with non-overlapping mean pm trial-standard-deviation ranges, and the mean FAPO-GEPA gain is +14.1 pp. In the six HoVer and IFBench comparisons where prompt-first search escalated to structural changes, FAPO wins all six with a mean gain of +33.8 pp. FAPO also improves performance on security tasks: on CTIBench-RCM, a security CVE-to-CWE task, prompt-only FAPO lifts test accuracy by +4.0 pp on GPT-5, +7.1 pp on Foundation-Sec-8B-Instruct, and +2.0 pp on Foundation-Sec-8B-Reasoning. These results position FAPO as a state-of-the-art pipeline optimization technique for both general-purpose and security-focused tasks.