Персонализированное рассуждение: персонализация в реальном времени и почему крупные языковые модели терпят неудачу
Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It
September 30, 2025
Авторы: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
cs.AI
Аннотация
Современная разработка крупных языковых моделей (LLM) рассматривает решение задач и согласование предпочтений как отдельные задачи, сначала оптимизируя для объективной правильности, а затем для соответствия агрегированным человеческим предпочтениям. Этот подход терпит неудачу в приложениях, ориентированных на человека, где правильное решение проблемы недостаточно, если ответ не соответствует потребностям пользователя. Эта проблема усугубляется в сценариях "точно в срок", где отсутствует история предыдущих взаимодействий с пользователем из-за условий "холодного старта" или ограничений конфиденциальности. LLM необходимо определить, что они не знают о предпочтениях пользователя, стратегически выявить значения предпочтений через вопросы, а затем адаптировать свои процессы рассуждения и ответы соответственно — сложную цепочку когнитивных процессов, которую мы называем персонализированным рассуждением. Мы представляем PREFDISCO, методологию оценки, которая преобразует статические тесты в интерактивные задачи персонализации с использованием психологически обоснованных персонажей с ограниченными предпочтениями. Наша структура создает сценарии, где одинаковые вопросы требуют различных цепочек рассуждений в зависимости от контекста пользователя, так как оптимальные подходы к объяснению варьируются в зависимости от индивидуального опыта и предпочтений, сохраняя при этом фактическую точность. Оценка 21 передовой модели по 10 задачам показывает, что 29,0% наивных попыток персонализации приводят к худшему согласованию предпочтений, чем универсальные ответы, однако универсальные ответы также неэффективно удовлетворяют индивидуальные потребности пользователей. Эти результаты указывают на то, что персонализированное рассуждение требует целенаправленной разработки, а не возникает естественным образом. PREFDISCO устанавливает персонализированное рассуждение как измеримую исследовательскую границу и выявляет фундаментальные ограничения в интерактивных возможностях современных LLM, предоставляя основу для разработки систем, способных адаптироваться к индивидуальным пользователям в образовании, здравоохранении и технических областях, где персонализация имеет критическое значение.
English
Current large language model (LLM) development treats task-solving and
preference alignment as separate challenges, optimizing first for objective
correctness, then for alignment to aggregated human preferences. This paradigm
fails in human-facing applications where solving a problem correctly is
insufficient if the response mismatches the user's needs. This challenge
intensifies in just-in-time scenarios where no prior user interaction history
exists due to cold-start conditions or privacy constraints. LLMs need to
identify what they don't know about user preferences, strategically elicit
preference values through questioning, then adapt their reasoning processes and
responses accordingly -- a complicated chain of cognitive processes which we
term personalized reasoning. We introduce PREFDISCO, an evaluation methodology
that transforms static benchmarks into interactive personalization tasks using
psychologically-grounded personas with sparse preferences. Our framework
creates scenarios where identical questions require different reasoning chains
depending on user context, as optimal explanation approaches vary by individual
expertise and preferences while maintaining factual accuracy. Evaluation of 21
frontier models across 10 tasks reveals 29.0% of naive personalization attempts
produce worse preference alignment than generic responses, yet generic
responses also fail to serve individual user needs effectively. These findings
suggest personalized reasoning requires dedicated development rather than
emerging naturally. PREFDISCO establishes personalized reasoning as a
measurable research frontier and reveals fundamental limitations in current
LLMs' interactive capabilities, providing a foundation for developing systems
that can adapt to individual users in education, healthcare, and technical
domains where personalization is critical.