ChatPaper.aiChatPaper

Personalisiertes Denken: Just-In-Time-Personalisierung und warum LLMs daran scheitern

Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It

September 30, 2025
papers.authors: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
cs.AI

papers.abstract

Die aktuelle Entwicklung großer Sprachmodelle (LLMs) behandelt Problemlösung und Präferenzabstimmung als separate Herausforderungen, wobei zunächst die objektive Korrektheit und dann die Ausrichtung an aggregierten menschlichen Präferenzen optimiert wird. Dieses Paradigma versagt in Anwendungen, die mit Menschen interagieren, da die korrekte Lösung eines Problems unzureichend ist, wenn die Antwort nicht den Bedürfnissen des Nutzers entspricht. Diese Herausforderung verschärft sich in Just-in-Time-Szenarien, in denen aufgrund von Cold-Start-Bedingungen oder Datenschutzbeschränkungen keine vorherige Nutzerinteraktionshistorie existiert. LLMs müssen identifizieren, was sie über die Präferenzen des Nutzers nicht wissen, strategisch Präferenzwerte durch Befragung ermitteln und dann ihre Denkprozesse und Antworten entsprechend anpassen – eine komplexe Kette kognitiver Prozesse, die wir als personalisiertes Denken bezeichnen. Wir stellen PREFDISCO vor, eine Evaluationsmethodik, die statische Benchmarks in interaktive Personalisierungsaufgaben transformiert, indem psychologisch fundierte Personas mit spärlichen Präferenzen verwendet werden. Unser Framework schafft Szenarien, in denen identische Fragen unterschiedliche Denkketten erfordern, abhängig vom Nutzerkontext, da optimale Erklärungsansätze je nach individuellem Fachwissen und Präferenzen variieren, während die faktische Genauigkeit gewahrt bleibt. Die Evaluierung von 21 Spitzenmodellen über 10 Aufgaben zeigt, dass 29,0 % der naiven Personalisierungsversuche eine schlechtere Präferenzabstimmung erzielen als generische Antworten, doch generische Antworten erfüllen auch nicht effektiv die individuellen Nutzerbedürfnisse. Diese Ergebnisse legen nahe, dass personalisiertes Denken eine gezielte Entwicklung erfordert und nicht natürlich entsteht. PREFDISCO etabliert personalisiertes Denken als messbare Forschungsfront und offenbart grundlegende Grenzen in den interaktiven Fähigkeiten aktueller LLMs, wodurch eine Grundlage für die Entwicklung von Systemen geschaffen wird, die sich in Bildung, Gesundheitswesen und technischen Bereichen, in denen Personalisierung kritisch ist, an individuelle Nutzer anpassen können.
English
Current large language model (LLM) development treats task-solving and preference alignment as separate challenges, optimizing first for objective correctness, then for alignment to aggregated human preferences. This paradigm fails in human-facing applications where solving a problem correctly is insufficient if the response mismatches the user's needs. This challenge intensifies in just-in-time scenarios where no prior user interaction history exists due to cold-start conditions or privacy constraints. LLMs need to identify what they don't know about user preferences, strategically elicit preference values through questioning, then adapt their reasoning processes and responses accordingly -- a complicated chain of cognitive processes which we term personalized reasoning. We introduce PREFDISCO, an evaluation methodology that transforms static benchmarks into interactive personalization tasks using psychologically-grounded personas with sparse preferences. Our framework creates scenarios where identical questions require different reasoning chains depending on user context, as optimal explanation approaches vary by individual expertise and preferences while maintaining factual accuracy. Evaluation of 21 frontier models across 10 tasks reveals 29.0% of naive personalization attempts produce worse preference alignment than generic responses, yet generic responses also fail to serve individual user needs effectively. These findings suggest personalized reasoning requires dedicated development rather than emerging naturally. PREFDISCO establishes personalized reasoning as a measurable research frontier and reveals fundamental limitations in current LLMs' interactive capabilities, providing a foundation for developing systems that can adapt to individual users in education, healthcare, and technical domains where personalization is critical.
PDF32October 6, 2025