Wanneer Gradiënten Botsten: Faalmodi van Multi-Objectieve Promptoptimalisatie voor LLM-beoordelaars

Samenvatting

Het aanpassen van een LLM-beoordelaar aan een specifieke taak of domein omvat vaak het gelijktijdig optimaliseren van de prompt over meerdere evaluatiecriteria. Tekstuele gradientmethoden automatiseren dit voor een enkel beoordelingscriterium, maar zij produceren kritieken in natuurlijke taal, geen numerieke vectoren. Daarom is de conflictoplossingsgereedschapskist van multitaskleren (PCGrad, MGDA) niet van toepassing op de multi-objectieve tekstuele gradientinstelling. We testen vijf decompositiemodi van tekstuele gradientoptimalisatoren door te variëren hoeveel cross-taskinformatie de LLM's voor verlies, gradient en optimalisatie delen. In 6 van de 10 configuraties zien we dat optimalisatie nooit verbetert ten opzichte van de initiële prompt. De gradientoorspronkelijkheid daalt met 59% (van 9,0 naar 3,7) wanneer de gradient-LLM meerdere criteria gezamenlijk verwerkt. Afzonderlijk zien we dat het naïef combineren van per-taakinstructies in een enkele prompt de Spearman's rho met -5,3% vermindert. Deze resultaten identificeren twee scheidbare faalmodi: gradiëntverdunning tijdens optimalisatie en instructie-interferentie tijdens inferentie, die samen de ontwerpruimte voor multi-objectieve aanpassing van beoordelaars met behulp van tekstuele feedback beperken.

English

Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneously. Textual gradient methods automate this for a single judge criterion, however they produce natural-language critiques, not numerical vectors. Thus, the conflict-resolution toolkit of multi-task learning (PCGrad, MGDA) doesn't apply to the multi-objective textual gradient setting. We test five decomposition modes of textual gradient optimizers by varying how much cross-task information the loss, gradient and optimizer LLMs share. In 6 of 10 configurations, we observe that optimization never improves over the initial prompt. Gradient specificity drops by 59% (from 9.0 to 3.7) when the gradient LLM processes multiple criteria jointly. Separately, we observe that naively combining per-task instructions into a single prompt degrades Spearman's rho by -5.3%. These results identify two separable failure modes: optimization-time gradient dilution and inference-time instruction interference, which together constrain the design space for multi-objective judge customization using textual feedback.