Meerdomeinen Uitlegbaarheid van Voorkeuren

Samenvatting

Voorkeursmechanismen, zoals menselijke voorkeur, LLM-as-a-Judge (LaaJ) en beloningsmodellen, zijn cruciaal voor het afstemmen en evalueren van grote taalmodellen (LLM's). Toch blijven de onderliggende concepten die deze voorkeuren sturen slecht begrepen. In dit werk stellen we een volledig geautomatiseerde methode voor voor het genereren van lokale en globale op concepten gebaseerde verklaringen van voorkeuren over meerdere domeinen. Onze methode maakt gebruik van een LLM om concepten te identificeren die gekozen en afgewezen reacties onderscheiden, en om deze weer te geven met op concepten gebaseerde vectoren. Om de relaties tussen concepten en voorkeuren te modelleren, stellen we een white-box Hiërarchisch Multi-Domein Regressiemodel voor dat zowel domeingenerieke als domeinspecifieke effecten vastlegt. Om onze methode te evalueren, stellen we een dataset samen die acht uitdagende en diverse domeinen omvat en verklaren we twaalf mechanismen. Onze methode behaalt sterke voorspellingsprestaties voor voorkeuren, overtreft de baseline-methoden en blijft tegelijkertijd verklaarbaar. Daarnaast beoordelen we de verklaringen in twee toepassingsgerichte situaties. Ten eerste leidt het sturen van LLM-uitvoer met concepten uit LaaJ-verklaringen tot reacties die die beoordelaars consistent prefereren. Ten tweede verbetert het aanbieden van concepten die menselijke voorkeuren verklaren aan LaaJ's hun voorspellingen van voorkeuren. Samen vestigt ons werk een nieuw paradigma voor verklaarbaarheid in het tijdperk van LLM's.

English

Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and reward models, are central to aligning and evaluating large language models (LLMs). Yet, the underlying concepts that drive these preferences remain poorly understood. In this work, we propose a fully automated method for generating local and global concept-based explanations of preferences across multiple domains. Our method utilizes an LLM to identify concepts that distinguish between chosen and rejected responses, and to represent them with concept-based vectors. To model the relationships between concepts and preferences, we propose a white-box Hierarchical Multi-Domain Regression model that captures both domain-general and domain-specific effects. To evaluate our method, we curate a dataset spanning eight challenging and diverse domains and explain twelve mechanisms. Our method achieves strong preference prediction performance, outperforming baselines while also being explainable. Additionally, we assess explanations in two application-driven settings. First, guiding LLM outputs with concepts from LaaJ explanations yields responses that those judges consistently prefer. Second, prompting LaaJs with concepts explaining humans improves their preference predictions. Together, our work establishes a new paradigm for explainability in the era of LLMs.

Meerdomeinen Uitlegbaarheid van Voorkeuren

Multi-Domain Explainability of Preferences

Samenvatting

Support