Meerdomeinen Uitlegbaarheid van Voorkeuren
Multi-Domain Explainability of Preferences
May 26, 2025
Auteurs: Nitay Calderon, Liat Ein-Dor, Roi Reichart
cs.AI
Samenvatting
Voorkeursmechanismen, zoals menselijke voorkeur, LLM-as-a-Judge (LaaJ) en beloningsmodellen, zijn cruciaal voor het afstemmen en evalueren van grote taalmodellen (LLM's). Toch blijven de onderliggende concepten die deze voorkeuren sturen slecht begrepen. In dit werk stellen we een volledig geautomatiseerde methode voor voor het genereren van lokale en globale op concepten gebaseerde verklaringen van voorkeuren over meerdere domeinen. Onze methode maakt gebruik van een LLM om concepten te identificeren die gekozen en afgewezen reacties onderscheiden, en om deze weer te geven met op concepten gebaseerde vectoren. Om de relaties tussen concepten en voorkeuren te modelleren, stellen we een white-box Hiërarchisch Multi-Domein Regressiemodel voor dat zowel domeingenerieke als domeinspecifieke effecten vastlegt. Om onze methode te evalueren, stellen we een dataset samen die acht uitdagende en diverse domeinen omvat en verklaren we twaalf mechanismen. Onze methode behaalt sterke voorspellingsprestaties voor voorkeuren, overtreft de baseline-methoden en blijft tegelijkertijd verklaarbaar. Daarnaast beoordelen we de verklaringen in twee toepassingsgerichte situaties. Ten eerste leidt het sturen van LLM-uitvoer met concepten uit LaaJ-verklaringen tot reacties die die beoordelaars consistent prefereren. Ten tweede verbetert het aanbieden van concepten die menselijke voorkeuren verklaren aan LaaJ's hun voorspellingen van voorkeuren. Samen vestigt ons werk een nieuw paradigma voor verklaarbaarheid in het tijdperk van LLM's.
English
Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and
reward models, are central to aligning and evaluating large language models
(LLMs). Yet, the underlying concepts that drive these preferences remain poorly
understood. In this work, we propose a fully automated method for generating
local and global concept-based explanations of preferences across multiple
domains. Our method utilizes an LLM to identify concepts that distinguish
between chosen and rejected responses, and to represent them with concept-based
vectors. To model the relationships between concepts and preferences, we
propose a white-box Hierarchical Multi-Domain Regression model that captures
both domain-general and domain-specific effects. To evaluate our method, we
curate a dataset spanning eight challenging and diverse domains and explain
twelve mechanisms. Our method achieves strong preference prediction
performance, outperforming baselines while also being explainable.
Additionally, we assess explanations in two application-driven settings. First,
guiding LLM outputs with concepts from LaaJ explanations yields responses that
those judges consistently prefer. Second, prompting LaaJs with concepts
explaining humans improves their preference predictions. Together, our work
establishes a new paradigm for explainability in the era of LLMs.