Возвращение человека в центр персонализации LLM

Аннотация

Несмотря на растущий интерес, большинство оценок способностей больших языковых моделей (БЯМ) к персонализации основывались на синтетических данных. Остается неясным, насколько хорошо текущие системы персонализации работают для реальных пользователей. В данной работе мы изучаем разрыв в производительности персонализации БЯМ при использовании синтетических и человеческих данных. Мы собрали человеческие диалоги (550 диалогов) и оценки по трем этапам персонализации: извлечение атрибутов пользователя из диалогов (5 949 оценок), сопоставление релевантных атрибутов с новыми запросами (11 919 оценок) и включение релевантных атрибутов в персонализированный ответ (1 101 оценка). Включение человеческих данных выявляет ограничения системы на каждом этапе. Модели с трудом извлекают атрибуты из человеческих диалогов, расходятся с человеческими оценками по релевантным атрибутам и генерируют персонализированные ответы, которые люди оценивают не лучше общих ответов (хотя оценки самих БЯМ обычно считают их лучшими). Мы предлагаем два легковесных интервенционных подхода на основе обучения, которые приближают автоматизированную оценку персонализации к человеческим данным на первых двух этапах. Однако на третьем этапе мы обнаруживаем, что обученные модели вознаграждения достигают лишь скромной корреляции с человеческими оценками, что указывает на сложность прямого моделирования согласованных с человеком суждений о качестве персонализации. Собранные нами данные создают основу для изучения того, как модели должны извлекать, выбирать и включать информацию о пользователе таким образом, чтобы это было полезно для человека.

English

Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthetic versus human data. We collect human conversations (550 conversations) and judgments across three stages of personalization: extracting user attributes from conversations (5,949 judgments), pairing relevant attributes with new prompts (11,919), and incorporating relevant attributes into a personalized response (1,101). Incorporating human data reveals system limitations at each stage. Models struggle to extract attributes from human conversations, disagree with human judgments on relevant attributes, and generate personalized responses that humans judge no better than generic responses (though that LLM judges widely rate as better). We introduce two lightweight training-based interventions that shift automated personalization evaluation closer to human data in our first two stages. However, in our third stage we find that learned reward models achieve only modest correlation with human ratings, suggesting that human-aligned personalization quality judgments are difficult to model directly. Our collected data provides a foundation for studying how models should extract, select, and incorporate user information in ways that humans find useful.