Lorsque les gradients se heurtent : Modes de défaillance de l'optimisation multi-objectif des prompts pour les juges LLM

Résumé

La personnalisation d’un juge LLM pour une tâche ou un domaine spécifique implique souvent l’optimisation de son prompt selon plusieurs critères d’évaluation simultanément. Les méthodes de gradient textuel automatisent ce processus pour un unique critère de jugement, mais produisent des critiques en langage naturel, et non des vecteurs numériques. Ainsi, la boîte à outils de résolution de conflits de l’apprentissage multitâche (PCGrad, MGDA) ne s’applique pas au cadre du gradient textuel multi-objectif. Nous testons cinq modes de décomposition des optimiseurs de gradient textuel en faisant varier la quantité d’informations inter-tâches partagées entre les L LM de perte, de gradient et d’optimisation. Dans 6 configurations sur 10, nous observons que l’optimisation n’améliore jamais le prompt initial. La spécificité du gradient chute de 59 % (de 9,0 à 3,7) lorsque le L LM de gradient traite plusieurs critères conjointement. Par ailleurs, nous observons que la combinaison naïve des instructions par tâche en un seul prompt dégrade le rho de Spearman de -5,3 %. Ces résultats identifient deux modes de défaillance distincts : la dilution du gradient au moment de l’optimisation et l’interférence des instructions au moment de l’inférence, qui contraignent ensemble l’espace de conception pour la personnalisation multi-objectif du juge par retour textuel.

English

Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneously. Textual gradient methods automate this for a single judge criterion, however they produce natural-language critiques, not numerical vectors. Thus, the conflict-resolution toolkit of multi-task learning (PCGrad, MGDA) doesn't apply to the multi-objective textual gradient setting. We test five decomposition modes of textual gradient optimizers by varying how much cross-task information the loss, gradient and optimizer LLMs share. In 6 of 10 configurations, we observe that optimization never improves over the initial prompt. Gradient specificity drops by 59% (from 9.0 to 3.7) when the gradient LLM processes multiple criteria jointly. Separately, we observe that naively combining per-task instructions into a single prompt degrades Spearman's rho by -5.3%. These results identify two separable failure modes: optimization-time gradient dilution and inference-time instruction interference, which together constrain the design space for multi-objective judge customization using textual feedback.