Рефлексивная настройка промптов посредством вызова функций языковой модели

Аннотация

Большие языковые модели (БЯМ) становятся всё более способными следовать инструкциям и выполнять сложные рассуждения, что делает подсказки (промпты) гибким интерфейсом для адаптации моделей без обновления параметров. Однако разработка промптов остаётся трудоёмкой и крайне чувствительной к форматированию, формулировкам и порядку инструкций, что стимулирует появление методов автоматической оптимизации промптов, снижающих ручные усилия при сохранении гибкости на этапе инференса. Тем не менее существующие методы часто выполняют поиск по кандидатам промптов или используют фиксированные конвейеры критики и уточнения, управляемые отдельными примерами или малыми пакетами, что ограничивает их способность выявлять систематические паттерны ошибок и вносить целенаправленные правки, основанные на истории сбоев. Мы предлагаем Reflective Prompt Tuning (RPT) — фреймворк, который использует вызов функций в БЯМ для имитации итеративной работы инженеров-промптологов. Оптимизатор на основе БЯМ вызывает диагностическую функцию, которая оценивает целевую модель на всём наборе оптимизации, обобщает повторяющиеся типы ошибок и возвращает структурированный диагностический отчёт. Используя этот отчёт вместе с накопленной памятью предыдущих отчётов, оптимизатор пересматривает промпт для следующей итерации. RPT также поддерживает оптимизацию с учётом уверенности (confidence-aware optimization) за счёт использования сигналов калибровки в диагностической обратной связи и при финальном выборе промпта. На трёх задачах рассуждения RPT улучшает исходные промпты на величину до 12,9 процентных пунктов, остаётся конкурентоспособным с современным состоянием дел и улучшает калибровку уверенности. Наш анализ показывает, что RPT особенно эффективен для многошаговых и математических рассуждений, обеспечивая целевые правки промптов, согласованные с выявленными паттернами ошибок, и приводя к улучшению как производительности задачи, так и калибровки.

English

Large language models (LLMs) have become increasingly capable of following instructions and complex reasoning, making prompting a flexible interface for adapting models without parameter updates. Yet prompt design remains labor-intensive and highly sensitive to formatting, phrasing, and instruction order, motivating automated prompt optimization methods that reduce manual effort while preserving inference-time flexibility. However, existing methods often search over prompt candidates or use fixed critique-refine pipelines driven by individual examples or small batches, limiting their ability to capture systematic error patterns and make targeted edits grounded in failure history. We propose Reflective Prompt Tuning (RPT), a framework that uses LLM function calling to simulate the iterative workflow of human prompt engineers. An LLM optimizer calls a diagnostic function that evaluates the target model over an entire optimization set, summarizes recurring failure modes, and returns a structured diagnostic report. The optimizer uses this report, together with an accumulated memory of prior reports, to revise the prompt for the next iteration. RPT further supports confidence-aware optimization by using calibration signals in diagnostic feedback and final prompt selection. Across three reasoning tasks, RPT improves over initial prompts by up to 12.9 points, remains competitive with state of the art, and improves confidence calibration. Our analyses show that RPT is especially effective on multi-hop and mathematical reasoning, producing targeted prompt revisions that align with diagnosed failure patterns and lead to gains in task performance and calibration.