Explicabilidade de Preferências em Múltiplos Domínios
Multi-Domain Explainability of Preferences
May 26, 2025
Autores: Nitay Calderon, Liat Ein-Dor, Roi Reichart
cs.AI
Resumo
Mecanismos de preferência, como preferência humana, LLM-como-Juiz (LaaJ) e modelos de recompensa, são centrais para alinhar e avaliar modelos de linguagem de grande escala (LLMs). No entanto, os conceitos subjacentes que impulsionam essas preferências permanecem pouco compreendidos. Neste trabalho, propomos um método totalmente automatizado para gerar explicações baseadas em conceitos locais e globais de preferências em múltiplos domínios. Nosso método utiliza um LLM para identificar conceitos que distinguem entre respostas escolhidas e rejeitadas, e para representá-los com vetores baseados em conceitos. Para modelar as relações entre conceitos e preferências, propomos um modelo de Regressão Hierárquica Multi-Domínio de caixa branca que captura tanto efeitos gerais quanto específicos de domínio. Para avaliar nosso método, compilamos um conjunto de dados abrangendo oito domínios desafiadores e diversos e explicamos doze mecanismos. Nosso método alcança um forte desempenho na previsão de preferências, superando as linhas de base enquanto também é explicável. Além disso, avaliamos as explicações em dois cenários orientados por aplicações. Primeiro, guiar as saídas de LLMs com conceitos de explicações LaaJ produz respostas que esses juízes consistentemente preferem. Segundo, solicitar LaaJs com conceitos que explicam humanos melhora suas previsões de preferência. Juntos, nosso trabalho estabelece um novo paradigma para explicabilidade na era dos LLMs.
English
Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and
reward models, are central to aligning and evaluating large language models
(LLMs). Yet, the underlying concepts that drive these preferences remain poorly
understood. In this work, we propose a fully automated method for generating
local and global concept-based explanations of preferences across multiple
domains. Our method utilizes an LLM to identify concepts that distinguish
between chosen and rejected responses, and to represent them with concept-based
vectors. To model the relationships between concepts and preferences, we
propose a white-box Hierarchical Multi-Domain Regression model that captures
both domain-general and domain-specific effects. To evaluate our method, we
curate a dataset spanning eight challenging and diverse domains and explain
twelve mechanisms. Our method achieves strong preference prediction
performance, outperforming baselines while also being explainable.
Additionally, we assess explanations in two application-driven settings. First,
guiding LLM outputs with concepts from LaaJ explanations yields responses that
those judges consistently prefer. Second, prompting LaaJs with concepts
explaining humans improves their preference predictions. Together, our work
establishes a new paradigm for explainability in the era of LLMs.