Spiegabilità Multi-Dominio delle Preferenze
Multi-Domain Explainability of Preferences
May 26, 2025
Autori: Nitay Calderon, Liat Ein-Dor, Roi Reichart
cs.AI
Abstract
I meccanismi di preferenza, come le preferenze umane, LLM-as-a-Judge (LaaJ) e i modelli di ricompensa, sono centrali per allineare e valutare i grandi modelli linguistici (LLM). Tuttavia, i concetti sottostanti che guidano queste preferenze rimangono poco compresi. In questo lavoro, proponiamo un metodo completamente automatizzato per generare spiegazioni basate su concetti locali e globali delle preferenze in più domini. Il nostro metodo utilizza un LLM per identificare i concetti che distinguono le risposte scelte da quelle rifiutate e per rappresentarli con vettori basati su concetti. Per modellare le relazioni tra concetti e preferenze, proponiamo un modello di regressione gerarchica multi-dominio a scatola bianca che cattura sia effetti generali che specifici per dominio. Per valutare il nostro metodo, curiamo un dataset che copre otto domini impegnativi e diversificati e spieghiamo dodici meccanismi. Il nostro metodo raggiunge una forte performance nella previsione delle preferenze, superando i baseline pur rimanendo spiegabile. Inoltre, valutiamo le spiegazioni in due contesti applicativi. Primo, guidare le uscite degli LLM con concetti derivati dalle spiegazioni di LaaJ produce risposte che i giudici preferiscono in modo consistente. Secondo, sollecitare i LaaJ con concetti che spiegano le preferenze umane migliora le loro previsioni di preferenza. Insieme, il nostro lavoro stabilisce un nuovo paradigma per la spiegabilità nell'era degli LLM.
English
Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and
reward models, are central to aligning and evaluating large language models
(LLMs). Yet, the underlying concepts that drive these preferences remain poorly
understood. In this work, we propose a fully automated method for generating
local and global concept-based explanations of preferences across multiple
domains. Our method utilizes an LLM to identify concepts that distinguish
between chosen and rejected responses, and to represent them with concept-based
vectors. To model the relationships between concepts and preferences, we
propose a white-box Hierarchical Multi-Domain Regression model that captures
both domain-general and domain-specific effects. To evaluate our method, we
curate a dataset spanning eight challenging and diverse domains and explain
twelve mechanisms. Our method achieves strong preference prediction
performance, outperforming baselines while also being explainable.
Additionally, we assess explanations in two application-driven settings. First,
guiding LLM outputs with concepts from LaaJ explanations yields responses that
those judges consistently prefer. Second, prompting LaaJs with concepts
explaining humans improves their preference predictions. Together, our work
establishes a new paradigm for explainability in the era of LLMs.