Explicabilidade de Preferências em Múltiplos Domínios

Resumo

Mecanismos de preferência, como preferência humana, LLM-como-Juiz (LaaJ) e modelos de recompensa, são centrais para alinhar e avaliar modelos de linguagem de grande escala (LLMs). No entanto, os conceitos subjacentes que impulsionam essas preferências permanecem pouco compreendidos. Neste trabalho, propomos um método totalmente automatizado para gerar explicações baseadas em conceitos locais e globais de preferências em múltiplos domínios. Nosso método utiliza um LLM para identificar conceitos que distinguem entre respostas escolhidas e rejeitadas, e para representá-los com vetores baseados em conceitos. Para modelar as relações entre conceitos e preferências, propomos um modelo de Regressão Hierárquica Multi-Domínio de caixa branca que captura tanto efeitos gerais quanto específicos de domínio. Para avaliar nosso método, compilamos um conjunto de dados abrangendo oito domínios desafiadores e diversos e explicamos doze mecanismos. Nosso método alcança um forte desempenho na previsão de preferências, superando as linhas de base enquanto também é explicável. Além disso, avaliamos as explicações em dois cenários orientados por aplicações. Primeiro, guiar as saídas de LLMs com conceitos de explicações LaaJ produz respostas que esses juízes consistentemente preferem. Segundo, solicitar LaaJs com conceitos que explicam humanos melhora suas previsões de preferência. Juntos, nosso trabalho estabelece um novo paradigma para explicabilidade na era dos LLMs.

English

Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and reward models, are central to aligning and evaluating large language models (LLMs). Yet, the underlying concepts that drive these preferences remain poorly understood. In this work, we propose a fully automated method for generating local and global concept-based explanations of preferences across multiple domains. Our method utilizes an LLM to identify concepts that distinguish between chosen and rejected responses, and to represent them with concept-based vectors. To model the relationships between concepts and preferences, we propose a white-box Hierarchical Multi-Domain Regression model that captures both domain-general and domain-specific effects. To evaluate our method, we curate a dataset spanning eight challenging and diverse domains and explain twelve mechanisms. Our method achieves strong preference prediction performance, outperforming baselines while also being explainable. Additionally, we assess explanations in two application-driven settings. First, guiding LLM outputs with concepts from LaaJ explanations yields responses that those judges consistently prefer. Second, prompting LaaJs with concepts explaining humans improves their preference predictions. Together, our work establishes a new paradigm for explainability in the era of LLMs.

Explicabilidade de Preferências em Múltiplos Domínios

Multi-Domain Explainability of Preferences

Resumo

Support