Wenn Gradienten kollidieren: Fehlermodi der mehrzieligen Prompt-Optimierung für LLM-Richter
When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges
May 25, 2026
Autoren: Parth Darshan, Abhishek Divekar
cs.AI
Zusammenfassung
Die Anpassung eines LLM-Richters an eine spezifische Aufgabe oder Domäne erfordert häufig die gleichzeitige Optimierung seines Prompts über mehrere Bewertungskriterien hinweg. Textuelle Gradientenmethoden automatisieren dies für ein einzelnes Richterkriterium, erzeugen jedoch Kritiken in natürlicher Sprache und keine numerischen Vektoren. Daher lässt sich das Konfliktlösungswerkzeugkasten des Multitask-Lernens (PCGrad, MGDA) nicht auf das multikriterielle textuelle Gradientenumfeld anwenden. Wir testen fünf Zerlegungsmodi von textuellen Gradientenoptimierern, indem wir variieren, wie viele aufgabenübergreifende Informationen die Verlust-, Gradienten- und Optimierer-LLMs gemeinsam nutzen. In 6 von 10 Konfigurationen beobachten wir, dass die Optimierung niemals eine Verbesserung gegenüber dem ursprünglichen Prompt erzielt. Die Gradientenspezifität sinkt um 59% (von 9,0 auf 3,7), wenn das Gradienten-LLM mehrere Kriterien gemeinsam verarbeitet. Unabhängig davon stellen wir fest, dass eine naive Kombination aufgabenspezifischer Anweisungen in einem einzigen Prompt Spearmans Rho um -5,3% verschlechtert. Diese Ergebnisse identifizieren zwei trennbare Fehlermodi: Optimierungszeit-Gradientenverdünnung und Inferenzzeit-Anweisungsinterferenz, die gemeinsam den Gestaltungsraum für multikriterielle Richteranpassungen mittels textuellen Feedbacks einschränken.
English
Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneously. Textual gradient methods automate this for a single judge criterion, however they produce natural-language critiques, not numerical vectors. Thus, the conflict-resolution toolkit of multi-task learning (PCGrad, MGDA) doesn't apply to the multi-objective textual gradient setting. We test five decomposition modes of textual gradient optimizers by varying how much cross-task information the loss, gradient and optimizer LLMs share. In 6 of 10 configurations, we observe that optimization never improves over the initial prompt. Gradient specificity drops by 59% (from 9.0 to 3.7) when the gradient LLM processes multiple criteria jointly. Separately, we observe that naively combining per-task instructions into a single prompt degrades Spearman's rho by -5.3%. These results identify two separable failure modes: optimization-time gradient dilution and inference-time instruction interference, which together constrain the design space for multi-objective judge customization using textual feedback.