Персонализированное рассуждение: персонализация в реальном времени и почему крупные языковые модели терпят неудачу

Аннотация

Современная разработка крупных языковых моделей (LLM) рассматривает решение задач и согласование предпочтений как отдельные задачи, сначала оптимизируя для объективной правильности, а затем для соответствия агрегированным человеческим предпочтениям. Этот подход терпит неудачу в приложениях, ориентированных на человека, где правильное решение проблемы недостаточно, если ответ не соответствует потребностям пользователя. Эта проблема усугубляется в сценариях "точно в срок", где отсутствует история предыдущих взаимодействий с пользователем из-за условий "холодного старта" или ограничений конфиденциальности. LLM необходимо определить, что они не знают о предпочтениях пользователя, стратегически выявить значения предпочтений через вопросы, а затем адаптировать свои процессы рассуждения и ответы соответственно — сложную цепочку когнитивных процессов, которую мы называем персонализированным рассуждением. Мы представляем PREFDISCO, методологию оценки, которая преобразует статические тесты в интерактивные задачи персонализации с использованием психологически обоснованных персонажей с ограниченными предпочтениями. Наша структура создает сценарии, где одинаковые вопросы требуют различных цепочек рассуждений в зависимости от контекста пользователя, так как оптимальные подходы к объяснению варьируются в зависимости от индивидуального опыта и предпочтений, сохраняя при этом фактическую точность. Оценка 21 передовой модели по 10 задачам показывает, что 29,0% наивных попыток персонализации приводят к худшему согласованию предпочтений, чем универсальные ответы, однако универсальные ответы также неэффективно удовлетворяют индивидуальные потребности пользователей. Эти результаты указывают на то, что персонализированное рассуждение требует целенаправленной разработки, а не возникает естественным образом. PREFDISCO устанавливает персонализированное рассуждение как измеримую исследовательскую границу и выявляет фундаментальные ограничения в интерактивных возможностях современных LLM, предоставляя основу для разработки систем, способных адаптироваться к индивидуальным пользователям в образовании, здравоохранении и технических областях, где персонализация имеет критическое значение.

English

Current large language model (LLM) development treats task-solving and preference alignment as separate challenges, optimizing first for objective correctness, then for alignment to aggregated human preferences. This paradigm fails in human-facing applications where solving a problem correctly is insufficient if the response mismatches the user's needs. This challenge intensifies in just-in-time scenarios where no prior user interaction history exists due to cold-start conditions or privacy constraints. LLMs need to identify what they don't know about user preferences, strategically elicit preference values through questioning, then adapt their reasoning processes and responses accordingly -- a complicated chain of cognitive processes which we term personalized reasoning. We introduce PREFDISCO, an evaluation methodology that transforms static benchmarks into interactive personalization tasks using psychologically-grounded personas with sparse preferences. Our framework creates scenarios where identical questions require different reasoning chains depending on user context, as optimal explanation approaches vary by individual expertise and preferences while maintaining factual accuracy. Evaluation of 21 frontier models across 10 tasks reveals 29.0% of naive personalization attempts produce worse preference alignment than generic responses, yet generic responses also fail to serve individual user needs effectively. These findings suggest personalized reasoning requires dedicated development rather than emerging naturally. PREFDISCO establishes personalized reasoning as a measurable research frontier and reveals fundamental limitations in current LLMs' interactive capabilities, providing a foundation for developing systems that can adapt to individual users in education, healthcare, and technical domains where personalization is critical.