Mehrdomänen-Erklärbarkeit von Präferenzen
Multi-Domain Explainability of Preferences
May 26, 2025
Autoren: Nitay Calderon, Liat Ein-Dor, Roi Reichart
cs.AI
Zusammenfassung
Präferenzmechanismen wie menschliche Präferenzen, LLM-as-a-Judge (LaaJ) und Belohnungsmodelle sind zentral für die Ausrichtung und Bewertung großer Sprachmodelle (LLMs). Dennoch sind die zugrunde liegenden Konzepte, die diese Präferenzen antreiben, noch weitgehend unverstanden. In dieser Arbeit schlagen wir eine vollautomatisierte Methode zur Generierung lokaler und globaler konzeptbasierter Erklärungen von Präferenzen über mehrere Domänen hinweg vor. Unsere Methode nutzt ein LLM, um Konzepte zu identifizieren, die zwischen ausgewählten und abgelehnten Antworten unterscheiden, und diese mit konzeptbasierten Vektoren darzustellen. Um die Beziehungen zwischen Konzepten und Präferenzen zu modellieren, schlagen wir ein transparentes Hierarchical Multi-Domain Regression-Modell vor, das sowohl domänenübergreifende als auch domänenspezifische Effekte erfasst. Zur Bewertung unserer Methode haben wir einen Datensatz erstellt, der acht anspruchsvolle und diverse Domänen umfasst, und zwölf Mechanismen erklärt. Unsere Methode erzielt eine starke Leistung bei der Präferenzvorhersage, übertrifft die Baselines und bleibt dabei erklärbar. Zusätzlich bewerten wir die Erklärungen in zwei anwendungsgetriebenen Szenarien. Erstens führen Konzepte aus LaaJ-Erklärungen, die die LLM-Ausgaben steuern, zu Antworten, die diese Richter konsequent bevorzugen. Zweitens verbessert die Eingabe von Konzepten, die menschliche Präferenzen erklären, in LaaJs deren Präferenzvorhersagen. Zusammen etabliert unsere Arbeit ein neues Paradigma für Erklärbarkeit im Zeitalter der LLMs.
English
Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and
reward models, are central to aligning and evaluating large language models
(LLMs). Yet, the underlying concepts that drive these preferences remain poorly
understood. In this work, we propose a fully automated method for generating
local and global concept-based explanations of preferences across multiple
domains. Our method utilizes an LLM to identify concepts that distinguish
between chosen and rejected responses, and to represent them with concept-based
vectors. To model the relationships between concepts and preferences, we
propose a white-box Hierarchical Multi-Domain Regression model that captures
both domain-general and domain-specific effects. To evaluate our method, we
curate a dataset spanning eight challenging and diverse domains and explain
twelve mechanisms. Our method achieves strong preference prediction
performance, outperforming baselines while also being explainable.
Additionally, we assess explanations in two application-driven settings. First,
guiding LLM outputs with concepts from LaaJ explanations yields responses that
those judges consistently prefer. Second, prompting LaaJs with concepts
explaining humans improves their preference predictions. Together, our work
establishes a new paradigm for explainability in the era of LLMs.Summary
AI-Generated Summary