Personalisiertes Denken: Just-In-Time-Personalisierung und warum LLMs daran scheitern
Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It
September 30, 2025
papers.authors: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
cs.AI
papers.abstract
Die aktuelle Entwicklung großer Sprachmodelle (LLMs) behandelt Problemlösung und Präferenzabstimmung als separate Herausforderungen, wobei zunächst die objektive Korrektheit und dann die Ausrichtung an aggregierten menschlichen Präferenzen optimiert wird. Dieses Paradigma versagt in Anwendungen, die mit Menschen interagieren, da die korrekte Lösung eines Problems unzureichend ist, wenn die Antwort nicht den Bedürfnissen des Nutzers entspricht. Diese Herausforderung verschärft sich in Just-in-Time-Szenarien, in denen aufgrund von Cold-Start-Bedingungen oder Datenschutzbeschränkungen keine vorherige Nutzerinteraktionshistorie existiert. LLMs müssen identifizieren, was sie über die Präferenzen des Nutzers nicht wissen, strategisch Präferenzwerte durch Befragung ermitteln und dann ihre Denkprozesse und Antworten entsprechend anpassen – eine komplexe Kette kognitiver Prozesse, die wir als personalisiertes Denken bezeichnen. Wir stellen PREFDISCO vor, eine Evaluationsmethodik, die statische Benchmarks in interaktive Personalisierungsaufgaben transformiert, indem psychologisch fundierte Personas mit spärlichen Präferenzen verwendet werden. Unser Framework schafft Szenarien, in denen identische Fragen unterschiedliche Denkketten erfordern, abhängig vom Nutzerkontext, da optimale Erklärungsansätze je nach individuellem Fachwissen und Präferenzen variieren, während die faktische Genauigkeit gewahrt bleibt. Die Evaluierung von 21 Spitzenmodellen über 10 Aufgaben zeigt, dass 29,0 % der naiven Personalisierungsversuche eine schlechtere Präferenzabstimmung erzielen als generische Antworten, doch generische Antworten erfüllen auch nicht effektiv die individuellen Nutzerbedürfnisse. Diese Ergebnisse legen nahe, dass personalisiertes Denken eine gezielte Entwicklung erfordert und nicht natürlich entsteht. PREFDISCO etabliert personalisiertes Denken als messbare Forschungsfront und offenbart grundlegende Grenzen in den interaktiven Fähigkeiten aktueller LLMs, wodurch eine Grundlage für die Entwicklung von Systemen geschaffen wird, die sich in Bildung, Gesundheitswesen und technischen Bereichen, in denen Personalisierung kritisch ist, an individuelle Nutzer anpassen können.
English
Current large language model (LLM) development treats task-solving and
preference alignment as separate challenges, optimizing first for objective
correctness, then for alignment to aggregated human preferences. This paradigm
fails in human-facing applications where solving a problem correctly is
insufficient if the response mismatches the user's needs. This challenge
intensifies in just-in-time scenarios where no prior user interaction history
exists due to cold-start conditions or privacy constraints. LLMs need to
identify what they don't know about user preferences, strategically elicit
preference values through questioning, then adapt their reasoning processes and
responses accordingly -- a complicated chain of cognitive processes which we
term personalized reasoning. We introduce PREFDISCO, an evaluation methodology
that transforms static benchmarks into interactive personalization tasks using
psychologically-grounded personas with sparse preferences. Our framework
creates scenarios where identical questions require different reasoning chains
depending on user context, as optimal explanation approaches vary by individual
expertise and preferences while maintaining factual accuracy. Evaluation of 21
frontier models across 10 tasks reveals 29.0% of naive personalization attempts
produce worse preference alignment than generic responses, yet generic
responses also fail to serve individual user needs effectively. These findings
suggest personalized reasoning requires dedicated development rather than
emerging naturally. PREFDISCO establishes personalized reasoning as a
measurable research frontier and reveals fundamental limitations in current
LLMs' interactive capabilities, providing a foundation for developing systems
that can adapt to individual users in education, healthcare, and technical
domains where personalization is critical.