Explicabilidad de Preferencias en Múltiples Dominios
Multi-Domain Explainability of Preferences
May 26, 2025
Autores: Nitay Calderon, Liat Ein-Dor, Roi Reichart
cs.AI
Resumen
Los mecanismos de preferencia, como las preferencias humanas, los LLM-como-Juez (LaaJ) y los modelos de recompensa, son fundamentales para alinear y evaluar los modelos de lenguaje de gran escala (LLMs). Sin embargo, los conceptos subyacentes que impulsan estas preferencias siguen siendo poco comprendidos. En este trabajo, proponemos un método completamente automatizado para generar explicaciones basadas en conceptos locales y globales de preferencias en múltiples dominios. Nuestro método utiliza un LLM para identificar conceptos que distinguen entre respuestas elegidas y rechazadas, y para representarlos mediante vectores basados en conceptos. Para modelar las relaciones entre conceptos y preferencias, proponemos un modelo de Regresión Jerárquica Multi-Dominio de caja blanca que captura tanto efectos generales como específicos del dominio. Para evaluar nuestro método, recopilamos un conjunto de datos que abarca ocho dominios desafiantes y diversos, y explicamos doce mecanismos. Nuestro método logra un fuerte rendimiento en la predicción de preferencias, superando a los baselines mientras también es explicable. Además, evaluamos las explicaciones en dos escenarios impulsados por aplicaciones. Primero, guiar las salidas de los LLM con conceptos de las explicaciones de LaaJ produce respuestas que esos jueces prefieren consistentemente. Segundo, incitar a los LaaJ con conceptos que explican las preferencias humanas mejora sus predicciones de preferencia. En conjunto, nuestro trabajo establece un nuevo paradigma para la explicabilidad en la era de los LLMs.
English
Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and
reward models, are central to aligning and evaluating large language models
(LLMs). Yet, the underlying concepts that drive these preferences remain poorly
understood. In this work, we propose a fully automated method for generating
local and global concept-based explanations of preferences across multiple
domains. Our method utilizes an LLM to identify concepts that distinguish
between chosen and rejected responses, and to represent them with concept-based
vectors. To model the relationships between concepts and preferences, we
propose a white-box Hierarchical Multi-Domain Regression model that captures
both domain-general and domain-specific effects. To evaluate our method, we
curate a dataset spanning eight challenging and diverse domains and explain
twelve mechanisms. Our method achieves strong preference prediction
performance, outperforming baselines while also being explainable.
Additionally, we assess explanations in two application-driven settings. First,
guiding LLM outputs with concepts from LaaJ explanations yields responses that
those judges consistently prefer. Second, prompting LaaJs with concepts
explaining humans improves their preference predictions. Together, our work
establishes a new paradigm for explainability in the era of LLMs.Summary
AI-Generated Summary