Когда градиенты сталкиваются: режимы отказа многоцелевой оптимизации промптов для LLM-судей

Аннотация

Настройка LLM-судьи под конкретную задачу или предметную область часто требует одновременной оптимизации его промпта по нескольким критериям оценки. Методы текстовых градиентов автоматизируют этот процесс для одного критерия, однако они выдают критические замечания на естественном языке, а не числовые векторы. Таким образом, инструментарий разрешения конфликтов из многозадачного обучения (PCGrad, MGDA) неприменим в условиях многоцелевых текстовых градиентов. Мы тестируем пять режимов декомпозиции оптимизаторов текстовых градиентов, варьируя объём перекрёстной информации, которой обмениваются LLM потерь, градиента и оптимизатора. В 6 из 10 конфигураций мы наблюдаем, что оптимизация никогда не улучшает исходный промпт. Специфичность градиента падает на 59% (с 9,0 до 3,7), когда LLM градиента обрабатывает несколько критериев совместно. Отдельно мы отмечаем, что простое объединение пошаговых инструкций в единый промпт снижает коэффициент Спирмена (rho) на -5,3%. Эти результаты выявляют два разделимых режима сбоя: разбавление градиента на этапе оптимизации и интерференцию инструкций на этапе инференса, которые вместе ограничивают пространство проектирования для многоцелевой настройки судей с использованием текстовой обратной связи.

English

Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneously. Textual gradient methods automate this for a single judge criterion, however they produce natural-language critiques, not numerical vectors. Thus, the conflict-resolution toolkit of multi-task learning (PCGrad, MGDA) doesn't apply to the multi-objective textual gradient setting. We test five decomposition modes of textual gradient optimizers by varying how much cross-task information the loss, gradient and optimizer LLMs share. In 6 of 10 configurations, we observe that optimization never improves over the initial prompt. Gradient specificity drops by 59% (from 9.0 to 3.7) when the gradient LLM processes multiple criteria jointly. Separately, we observe that naively combining per-task instructions into a single prompt degrades Spearman's rho by -5.3%. These results identify two separable failure modes: optimization-time gradient dilution and inference-time instruction interference, which together constrain the design space for multi-objective judge customization using textual feedback.