Raisonnement personnalisé : Personnalisation juste à temps et pourquoi les LLM échouent À cela
Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It
September 30, 2025
papers.authors: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
cs.AI
papers.abstract
Le développement actuel des grands modèles de langage (LLM) traite la résolution de tâches et l'alignement des préférences comme des défis distincts, en optimisant d'abord pour la justesse objective, puis pour l'alignement sur les préférences humaines agrégées. Ce paradigme échoue dans les applications orientées vers les humains, où résoudre un problème correctement est insuffisant si la réponse ne correspond pas aux besoins de l'utilisateur. Ce défi s'intensifie dans les scénarios en temps réel où aucune historique d'interaction utilisateur n'existe en raison de conditions de démarrage à froid ou de contraintes de confidentialité. Les LLM doivent identifier ce qu'ils ignorent des préférences de l'utilisateur, solliciter stratégiquement les valeurs de préférence par le questionnement, puis adapter leurs processus de raisonnement et leurs réponses en conséquence — une chaîne complexe de processus cognitifs que nous appelons raisonnement personnalisé. Nous présentons PREFDISCO, une méthodologie d'évaluation qui transforme des benchmarks statiques en tâches de personnalisation interactives en utilisant des personnages psychologiquement fondés avec des préférences éparses. Notre cadre crée des scénarios où des questions identiques nécessitent des chaînes de raisonnement différentes selon le contexte utilisateur, car les approches d'explication optimales varient selon l'expertise et les préférences individuelles tout en maintenant l'exactitude factuelle. L'évaluation de 21 modèles de pointe sur 10 tâches révèle que 29,0 % des tentatives naïves de personnalisation produisent un alignement des préférences pire que les réponses génériques, mais que les réponses génériques échouent également à répondre efficacement aux besoins individuels des utilisateurs. Ces résultats suggèrent que le raisonnement personnalisé nécessite un développement dédié plutôt que d'émerger naturellement. PREFDISCO établit le raisonnement personnalisé comme une frontière de recherche mesurable et révèle des limitations fondamentales dans les capacités interactives des LLM actuels, fournissant une base pour développer des systèmes capables de s'adapter aux utilisateurs individuels dans des domaines tels que l'éducation, la santé et les domaines techniques où la personnalisation est critique.
English
Current large language model (LLM) development treats task-solving and
preference alignment as separate challenges, optimizing first for objective
correctness, then for alignment to aggregated human preferences. This paradigm
fails in human-facing applications where solving a problem correctly is
insufficient if the response mismatches the user's needs. This challenge
intensifies in just-in-time scenarios where no prior user interaction history
exists due to cold-start conditions or privacy constraints. LLMs need to
identify what they don't know about user preferences, strategically elicit
preference values through questioning, then adapt their reasoning processes and
responses accordingly -- a complicated chain of cognitive processes which we
term personalized reasoning. We introduce PREFDISCO, an evaluation methodology
that transforms static benchmarks into interactive personalization tasks using
psychologically-grounded personas with sparse preferences. Our framework
creates scenarios where identical questions require different reasoning chains
depending on user context, as optimal explanation approaches vary by individual
expertise and preferences while maintaining factual accuracy. Evaluation of 21
frontier models across 10 tasks reveals 29.0% of naive personalization attempts
produce worse preference alignment than generic responses, yet generic
responses also fail to serve individual user needs effectively. These findings
suggest personalized reasoning requires dedicated development rather than
emerging naturally. PREFDISCO establishes personalized reasoning as a
measurable research frontier and reveals fundamental limitations in current
LLMs' interactive capabilities, providing a foundation for developing systems
that can adapt to individual users in education, healthcare, and technical
domains where personalization is critical.