Многодоменная объяснимость предпочтений
Multi-Domain Explainability of Preferences
May 26, 2025
Авторы: Nitay Calderon, Liat Ein-Dor, Roi Reichart
cs.AI
Аннотация
Механизмы предпочтений, такие как человеческие предпочтения, LLM-как-судья (LaaJ) и модели вознаграждения, играют ключевую роль в согласовании и оценке больших языковых моделей (LLM). Однако базовые концепции, лежащие в основе этих предпочтений, остаются недостаточно изученными. В данной работе мы предлагаем полностью автоматизированный метод для генерации локальных и глобальных объяснений предпочтений, основанных на концепциях, в различных областях. Наш метод использует LLM для идентификации концепций, которые отличают выбранные ответы от отвергнутых, и для их представления с помощью векторов, основанных на концепциях. Для моделирования взаимосвязей между концепциями и предпочтениями мы предлагаем прозрачную иерархическую модель множественной регрессии, которая учитывает как общие, так и специфичные для конкретной области эффекты. Для оценки нашего метода мы создаем набор данных, охватывающий восемь сложных и разнообразных областей, и объясняем двенадцать механизмов. Наш метод демонстрирует высокую точность в прогнозировании предпочтений, превосходя базовые подходы, оставаясь при этом объяснимым. Кроме того, мы оцениваем объяснения в двух прикладных сценариях. Во-первых, использование концепций из объяснений LaaJ для управления выводами LLM приводит к ответам, которые судьи последовательно предпочитают. Во-вторых, использование концепций, объясняющих человеческие предпочтения, в запросах к LaaJ улучшает их прогнозы предпочтений. В совокупности наша работа устанавливает новую парадигму объяснимости в эпоху LLM.
English
Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and
reward models, are central to aligning and evaluating large language models
(LLMs). Yet, the underlying concepts that drive these preferences remain poorly
understood. In this work, we propose a fully automated method for generating
local and global concept-based explanations of preferences across multiple
domains. Our method utilizes an LLM to identify concepts that distinguish
between chosen and rejected responses, and to represent them with concept-based
vectors. To model the relationships between concepts and preferences, we
propose a white-box Hierarchical Multi-Domain Regression model that captures
both domain-general and domain-specific effects. To evaluate our method, we
curate a dataset spanning eight challenging and diverse domains and explain
twelve mechanisms. Our method achieves strong preference prediction
performance, outperforming baselines while also being explainable.
Additionally, we assess explanations in two application-driven settings. First,
guiding LLM outputs with concepts from LaaJ explanations yields responses that
those judges consistently prefer. Second, prompting LaaJs with concepts
explaining humans improves their preference predictions. Together, our work
establishes a new paradigm for explainability in the era of LLMs.Summary
AI-Generated Summary