Gepersonaliseerd Redeneren: Just-In-Time Personalisatie en Waarom LLM's Erin Falen
Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It
September 30, 2025
Auteurs: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
cs.AI
Samenvatting
De huidige ontwikkeling van grote taalmodellen (LLM's) behandelt probleemoplossing en voorkeursafstemming als afzonderlijke uitdagingen, waarbij eerst geoptimaliseerd wordt voor objectieve correctheid en vervolgens voor afstemming op geaggregeerde menselijke voorkeuren. Dit paradigma faalt in toepassingen die gericht zijn op menselijke interactie, waar het correct oplossen van een probleem onvoldoende is als het antwoord niet aansluit bij de behoeften van de gebruiker. Deze uitdaging wordt nog groter in just-in-time scenario's waar geen eerdere interactiegeschiedenis van de gebruiker bestaat vanwege cold-start condities of privacybeperkingen. LLM's moeten identificeren wat ze niet weten over gebruikersvoorkeuren, strategisch voorkeurswaarden ophalen door middel van vragen, en vervolgens hun redeneerprocessen en antwoorden dienovereenkomstig aanpassen — een complexe keten van cognitieve processen die we gepersonaliseerd redeneren noemen. We introduceren PREFDISCO, een evaluatiemethodologie die statische benchmarks omzet in interactieve personalisatietaken met behulp van psychologisch onderbouwde persona's met beperkte voorkeuren. Ons framework creëert scenario's waarin identieke vragen verschillende redeneerketens vereisen afhankelijk van de gebruikerscontext, aangezien optimale uitlegbenaderingen variëren per individuele expertise en voorkeuren, terwijl feitelijke nauwkeurigheid behouden blijft. Evaluatie van 21 toonaangevende modellen over 10 taken laat zien dat 29,0% van de naïeve personalisatiepogingen slechtere voorkeursafstemming oplevert dan generieke antwoorden, terwijl generieke antwoorden ook niet effectief zijn in het bedienen van individuele gebruikersbehoeften. Deze bevindingen suggereren dat gepersonaliseerd redeneren gerichte ontwikkeling vereist in plaats van vanzelfsprekend te ontstaan. PREFDISCO positioneert gepersonaliseerd redeneren als een meetbaar onderzoeksgebied en onthult fundamentele beperkingen in de interactieve mogelijkheden van huidige LLM's, wat een basis biedt voor het ontwikkelen van systemen die zich kunnen aanpassen aan individuele gebruikers in onderwijs, gezondheidszorg en technische domeinen waar personalisatie cruciaal is.
English
Current large language model (LLM) development treats task-solving and
preference alignment as separate challenges, optimizing first for objective
correctness, then for alignment to aggregated human preferences. This paradigm
fails in human-facing applications where solving a problem correctly is
insufficient if the response mismatches the user's needs. This challenge
intensifies in just-in-time scenarios where no prior user interaction history
exists due to cold-start conditions or privacy constraints. LLMs need to
identify what they don't know about user preferences, strategically elicit
preference values through questioning, then adapt their reasoning processes and
responses accordingly -- a complicated chain of cognitive processes which we
term personalized reasoning. We introduce PREFDISCO, an evaluation methodology
that transforms static benchmarks into interactive personalization tasks using
psychologically-grounded personas with sparse preferences. Our framework
creates scenarios where identical questions require different reasoning chains
depending on user context, as optimal explanation approaches vary by individual
expertise and preferences while maintaining factual accuracy. Evaluation of 21
frontier models across 10 tasks reveals 29.0% of naive personalization attempts
produce worse preference alignment than generic responses, yet generic
responses also fail to serve individual user needs effectively. These findings
suggest personalized reasoning requires dedicated development rather than
emerging naturally. PREFDISCO establishes personalized reasoning as a
measurable research frontier and reveals fundamental limitations in current
LLMs' interactive capabilities, providing a foundation for developing systems
that can adapt to individual users in education, healthcare, and technical
domains where personalization is critical.