Explicabilité multidomaine des préférences
Multi-Domain Explainability of Preferences
May 26, 2025
Auteurs: Nitay Calderon, Liat Ein-Dor, Roi Reichart
cs.AI
Résumé
Les mécanismes de préférence, tels que la préférence humaine, les LLM-comme-juges (LaaJ) et les modèles de récompense, sont centraux pour aligner et évaluer les grands modèles de langage (LLM). Pourtant, les concepts sous-jacents qui motivent ces préférences restent mal compris. Dans ce travail, nous proposons une méthode entièrement automatisée pour générer des explications locales et globales basées sur des concepts des préférences à travers plusieurs domaines. Notre méthode utilise un LLM pour identifier les concepts qui distinguent les réponses choisies des réponses rejetées, et pour les représenter à l'aide de vecteurs basés sur des concepts. Pour modéliser les relations entre les concepts et les préférences, nous proposons un modèle de régression hiérarchique multi-domaine de type boîte blanche qui capture à la fois les effets généraux et spécifiques à chaque domaine. Pour évaluer notre méthode, nous constituons un ensemble de données couvrant huit domaines variés et complexes, et expliquons douze mécanismes. Notre méthode obtient de solides performances en matière de prédiction des préférences, surpassant les méthodes de référence tout en étant explicable. De plus, nous évaluons les explications dans deux contextes axés sur des applications. Premièrement, guider les sorties des LLM avec des concepts issus des explications LaaJ produit des réponses que ces juges préfèrent de manière cohérente. Deuxièmement, inciter les LaaJ avec des concepts expliquant les préférences humaines améliore leurs prédictions de préférence. Ensemble, notre travail établit un nouveau paradigme pour l'explicabilité à l'ère des LLM.
English
Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and
reward models, are central to aligning and evaluating large language models
(LLMs). Yet, the underlying concepts that drive these preferences remain poorly
understood. In this work, we propose a fully automated method for generating
local and global concept-based explanations of preferences across multiple
domains. Our method utilizes an LLM to identify concepts that distinguish
between chosen and rejected responses, and to represent them with concept-based
vectors. To model the relationships between concepts and preferences, we
propose a white-box Hierarchical Multi-Domain Regression model that captures
both domain-general and domain-specific effects. To evaluate our method, we
curate a dataset spanning eight challenging and diverse domains and explain
twelve mechanisms. Our method achieves strong preference prediction
performance, outperforming baselines while also being explainable.
Additionally, we assess explanations in two application-driven settings. First,
guiding LLM outputs with concepts from LaaJ explanations yields responses that
those judges consistently prefer. Second, prompting LaaJs with concepts
explaining humans improves their preference predictions. Together, our work
establishes a new paradigm for explainability in the era of LLMs.Summary
AI-Generated Summary