Spiegabilità Multi-Dominio delle Preferenze

Abstract

I meccanismi di preferenza, come le preferenze umane, LLM-as-a-Judge (LaaJ) e i modelli di ricompensa, sono centrali per allineare e valutare i grandi modelli linguistici (LLM). Tuttavia, i concetti sottostanti che guidano queste preferenze rimangono poco compresi. In questo lavoro, proponiamo un metodo completamente automatizzato per generare spiegazioni basate su concetti locali e globali delle preferenze in più domini. Il nostro metodo utilizza un LLM per identificare i concetti che distinguono le risposte scelte da quelle rifiutate e per rappresentarli con vettori basati su concetti. Per modellare le relazioni tra concetti e preferenze, proponiamo un modello di regressione gerarchica multi-dominio a scatola bianca che cattura sia effetti generali che specifici per dominio. Per valutare il nostro metodo, curiamo un dataset che copre otto domini impegnativi e diversificati e spieghiamo dodici meccanismi. Il nostro metodo raggiunge una forte performance nella previsione delle preferenze, superando i baseline pur rimanendo spiegabile. Inoltre, valutiamo le spiegazioni in due contesti applicativi. Primo, guidare le uscite degli LLM con concetti derivati dalle spiegazioni di LaaJ produce risposte che i giudici preferiscono in modo consistente. Secondo, sollecitare i LaaJ con concetti che spiegano le preferenze umane migliora le loro previsioni di preferenza. Insieme, il nostro lavoro stabilisce un nuovo paradigma per la spiegabilità nell'era degli LLM.

English

Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and reward models, are central to aligning and evaluating large language models (LLMs). Yet, the underlying concepts that drive these preferences remain poorly understood. In this work, we propose a fully automated method for generating local and global concept-based explanations of preferences across multiple domains. Our method utilizes an LLM to identify concepts that distinguish between chosen and rejected responses, and to represent them with concept-based vectors. To model the relationships between concepts and preferences, we propose a white-box Hierarchical Multi-Domain Regression model that captures both domain-general and domain-specific effects. To evaluate our method, we curate a dataset spanning eight challenging and diverse domains and explain twelve mechanisms. Our method achieves strong preference prediction performance, outperforming baselines while also being explainable. Additionally, we assess explanations in two application-driven settings. First, guiding LLM outputs with concepts from LaaJ explanations yields responses that those judges consistently prefer. Second, prompting LaaJs with concepts explaining humans improves their preference predictions. Together, our work establishes a new paradigm for explainability in the era of LLMs.

Spiegabilità Multi-Dominio delle Preferenze

Multi-Domain Explainability of Preferences

Abstract

Support