Explicabilité multidomaine des préférences

papers.abstract

Les mécanismes de préférence, tels que la préférence humaine, les LLM-comme-juges (LaaJ) et les modèles de récompense, sont centraux pour aligner et évaluer les grands modèles de langage (LLM). Pourtant, les concepts sous-jacents qui motivent ces préférences restent mal compris. Dans ce travail, nous proposons une méthode entièrement automatisée pour générer des explications locales et globales basées sur des concepts des préférences à travers plusieurs domaines. Notre méthode utilise un LLM pour identifier les concepts qui distinguent les réponses choisies des réponses rejetées, et pour les représenter à l'aide de vecteurs basés sur des concepts. Pour modéliser les relations entre les concepts et les préférences, nous proposons un modèle de régression hiérarchique multi-domaine de type boîte blanche qui capture à la fois les effets généraux et spécifiques à chaque domaine. Pour évaluer notre méthode, nous constituons un ensemble de données couvrant huit domaines variés et complexes, et expliquons douze mécanismes. Notre méthode obtient de solides performances en matière de prédiction des préférences, surpassant les méthodes de référence tout en étant explicable. De plus, nous évaluons les explications dans deux contextes axés sur des applications. Premièrement, guider les sorties des LLM avec des concepts issus des explications LaaJ produit des réponses que ces juges préfèrent de manière cohérente. Deuxièmement, inciter les LaaJ avec des concepts expliquant les préférences humaines améliore leurs prédictions de préférence. Ensemble, notre travail établit un nouveau paradigme pour l'explicabilité à l'ère des LLM.

English

Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and reward models, are central to aligning and evaluating large language models (LLMs). Yet, the underlying concepts that drive these preferences remain poorly understood. In this work, we propose a fully automated method for generating local and global concept-based explanations of preferences across multiple domains. Our method utilizes an LLM to identify concepts that distinguish between chosen and rejected responses, and to represent them with concept-based vectors. To model the relationships between concepts and preferences, we propose a white-box Hierarchical Multi-Domain Regression model that captures both domain-general and domain-specific effects. To evaluate our method, we curate a dataset spanning eight challenging and diverse domains and explain twelve mechanisms. Our method achieves strong preference prediction performance, outperforming baselines while also being explainable. Additionally, we assess explanations in two application-driven settings. First, guiding LLM outputs with concepts from LaaJ explanations yields responses that those judges consistently prefer. Second, prompting LaaJs with concepts explaining humans improves their preference predictions. Together, our work establishes a new paradigm for explainability in the era of LLMs.

Explicabilité multidomaine des préférences

Multi-Domain Explainability of Preferences

papers.abstract

Support