Cuando los Gradientes Chocan: Modos de Falla de la Optimización Multiobjetivo de Prompts para Jueces LLM

Resumen

Personalizar un juez LLM para una tarea o dominio específico a menudo implica optimizar su prompt a través de múltiples criterios de evaluación simultáneamente. Los métodos de gradiente textual automatizan este proceso para un único criterio del juez; sin embargo, producen críticas en lenguaje natural, no vectores numéricos. Por lo tanto, el conjunto de herramientas de resolución de conflictos del aprendizaje multitarea (PCGrad, MGDA) no se aplica al entorno de gradiente textual multiobjetivo. Probamos cinco modos de descomposición de optimizadores de gradiente textual variando la cantidad de información entre tareas que comparten los LLM de pérdida, gradiente y optimizador. En 6 de 10 configuraciones, observamos que la optimización nunca mejora respecto al prompt inicial. La especificidad del gradiente disminuye un 59% (de 9.0 a 3.7) cuando el LLM de gradiente procesa múltiples criterios de forma conjunta. Por separado, observamos que combinar ingenuamente las instrucciones por tarea en un solo prompt degrada el rho de Spearman en un -5.3%. Estos resultados identifican dos modos de fallo separables: la dilución del gradiente en el momento de la optimización y la interferencia de instrucciones en el momento de la inferencia, que juntos restringen el espacio de diseño para la personalización multiobjetivo del juez mediante retroalimentación textual.

English

Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneously. Textual gradient methods automate this for a single judge criterion, however they produce natural-language critiques, not numerical vectors. Thus, the conflict-resolution toolkit of multi-task learning (PCGrad, MGDA) doesn't apply to the multi-objective textual gradient setting. We test five decomposition modes of textual gradient optimizers by varying how much cross-task information the loss, gradient and optimizer LLMs share. In 6 of 10 configurations, we observe that optimization never improves over the initial prompt. Gradient specificity drops by 59% (from 9.0 to 3.7) when the gradient LLM processes multiple criteria jointly. Separately, we observe that naively combining per-task instructions into a single prompt degrades Spearman's rho by -5.3%. These results identify two separable failure modes: optimization-time gradient dilution and inference-time instruction interference, which together constrain the design space for multi-objective judge customization using textual feedback.