Ragionamento Personalizzato: Personalizzazione Just-In-Time e Perché i Modelli Linguistici di Grandi Dimensioni Falliscono
Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It
September 30, 2025
Autori: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
cs.AI
Abstract
Lo sviluppo attuale dei grandi modelli linguistici (LLM) affronta la risoluzione di compiti e l'allineamento alle preferenze come sfide separate, ottimizzando prima per la correttezza oggettiva e poi per l'allineamento alle preferenze umane aggregate. Questo paradigma fallisce nelle applicazioni rivolte agli esseri umani, dove risolvere un problema correttamente è insufficiente se la risposta non corrisponde alle esigenze dell'utente. Questa sfida si intensifica negli scenari just-in-time, dove non esiste una storia di interazioni precedenti a causa di condizioni di cold-start o vincoli di privacy. Gli LLM devono identificare ciò che non sanno sulle preferenze dell'utente, sollecitare strategicamente i valori delle preferenze attraverso domande, e quindi adattare i loro processi di ragionamento e le risposte di conseguenza — una complessa catena di processi cognitivi che definiamo ragionamento personalizzato. Introduciamo PREFDISCO, una metodologia di valutazione che trasforma benchmark statici in compiti di personalizzazione interattivi utilizzando personaggi psicologicamente fondati con preferenze sparse. Il nostro framework crea scenari in cui domande identiche richiedono catene di ragionamento diverse a seconda del contesto dell'utente, poiché gli approcci ottimali di spiegazione variano in base all'esperienza e alle preferenze individuali, pur mantenendo l'accuratezza fattuale. La valutazione di 21 modelli all'avanguardia su 10 compiti rivela che il 29,0% dei tentativi ingenui di personalizzazione produce un allineamento alle preferenze peggiore rispetto alle risposte generiche, ma anche che le risposte generiche non soddisfano efficacemente le esigenze individuali degli utenti. Questi risultati suggeriscono che il ragionamento personalizzato richiede uno sviluppo dedicato piuttosto che emergere naturalmente. PREFDISCO stabilisce il ragionamento personalizzato come una frontiera di ricerca misurabile e rivela limitazioni fondamentali nelle capacità interattive degli attuali LLM, fornendo una base per lo sviluppo di sistemi in grado di adattarsi agli utenti individuali in ambiti come l'istruzione, la sanità e i domini tecnici, dove la personalizzazione è cruciale.
English
Current large language model (LLM) development treats task-solving and
preference alignment as separate challenges, optimizing first for objective
correctness, then for alignment to aggregated human preferences. This paradigm
fails in human-facing applications where solving a problem correctly is
insufficient if the response mismatches the user's needs. This challenge
intensifies in just-in-time scenarios where no prior user interaction history
exists due to cold-start conditions or privacy constraints. LLMs need to
identify what they don't know about user preferences, strategically elicit
preference values through questioning, then adapt their reasoning processes and
responses accordingly -- a complicated chain of cognitive processes which we
term personalized reasoning. We introduce PREFDISCO, an evaluation methodology
that transforms static benchmarks into interactive personalization tasks using
psychologically-grounded personas with sparse preferences. Our framework
creates scenarios where identical questions require different reasoning chains
depending on user context, as optimal explanation approaches vary by individual
expertise and preferences while maintaining factual accuracy. Evaluation of 21
frontier models across 10 tasks reveals 29.0% of naive personalization attempts
produce worse preference alignment than generic responses, yet generic
responses also fail to serve individual user needs effectively. These findings
suggest personalized reasoning requires dedicated development rather than
emerging naturally. PREFDISCO establishes personalized reasoning as a
measurable research frontier and reveals fundamental limitations in current
LLMs' interactive capabilities, providing a foundation for developing systems
that can adapt to individual users in education, healthcare, and technical
domains where personalization is critical.