Quando os Gradientes Colidem: Modos de Falha da Otimização de Prompt Multi-Objetivo para Juízes LLM

Resumo

A customização de um juiz LLM para uma tarefa ou domínio específico frequentemente envolve a otimização de seu prompt em múltiplos critérios de avaliação simultaneamente. Métodos de gradiente textual automatizam esse processo para um único critério de juiz, no entanto produzem críticas em linguagem natural, não vetores numéricos. Assim, o conjunto de ferramentas de resolução de conflitos do aprendizado multitarefa (PCGrad, MGDA) não se aplica ao cenário de gradiente textual multiobjetivo. Testamos cinco modos de decomposição de otimizadores de gradiente textual, variando o quanto de informação entre tarefas é compartilhada entre os LLMs de perda, gradiente e otimizador. Em 6 de 10 configurações, observamos que a otimização nunca melhora em relação ao prompt inicial. A especificidade do gradiente cai 59% (de 9,0 para 3,7) quando o LLM de gradiente processa múltiplos critérios conjuntamente. Separadamente, observamos que combinar ingenuamente instruções por tarefa em um único prompt degrada o rho de Spearman em -5,3%. Esses resultados identificam dois modos de falha separáveis: diluição do gradiente no tempo de otimização e interferência de instruções no tempo de inferência, que juntos restringem o espaço de design para customização de juiz multiobjetivo usando feedback textual.

English

Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneously. Textual gradient methods automate this for a single judge criterion, however they produce natural-language critiques, not numerical vectors. Thus, the conflict-resolution toolkit of multi-task learning (PCGrad, MGDA) doesn't apply to the multi-objective textual gradient setting. We test five decomposition modes of textual gradient optimizers by varying how much cross-task information the loss, gradient and optimizer LLMs share. In 6 of 10 configurations, we observe that optimization never improves over the initial prompt. Gradient specificity drops by 59% (from 9.0 to 3.7) when the gradient LLM processes multiple criteria jointly. Separately, we observe that naively combining per-task instructions into a single prompt degrades Spearman's rho by -5.3%. These results identify two separable failure modes: optimization-time gradient dilution and inference-time instruction interference, which together constrain the design space for multi-objective judge customization using textual feedback.