Il Paradosso della Persona: le Personae Mediche come Prior Comportamentali nei Modelli Linguistici Clinici

Abstract

Il condizionamento della persona può essere visto come un precedente comportamentale per i grandi modelli linguistici (LLM) e si presume spesso che conferisca competenza e migliori la sicurezza in modo monotono. Tuttavia, i suoi effetti sul processo decisionale clinico ad alto rischio rimangono scarsamente caratterizzati. Valutiamo sistematicamente il controllo basato sulla persona nei LLM clinici, esaminando come i ruoli professionali (ad esempio, medico di Pronto Soccorso, infermiere) e gli stili di interazione (audace vs. cauto) influenzino il comportamento tra modelli e compiti medici. Valutiamo le prestazioni nelle attività di triage clinico e di sicurezza del paziente utilizzando valutazioni multidimensionali che catturano l'accuratezza del compito, la calibrazione e il comportamento di rischio rilevante per la sicurezza. Troviamo effetti sistematici, contestuali e non monotoni: le persone mediche migliorano le prestazioni nelle attività di cure critiche, producendo guadagni fino a circa +20% in accuratezza e calibrazione, ma degradano le prestazioni in contesti di cure primarie con margini comparabili. Lo stile di interazione modula la propensione al rischio e la sensibilità, ma è fortemente dipendente dal modello. Sebbene le classificazioni aggregate del giudice-LLM favoriscano le persone mediche rispetto a quelle non mediche nei casi critici per la sicurezza, abbiamo riscontrato che i clinici umani mostrano un accordo moderato sulla conformità alla sicurezza (κ di Cohen medio = 0,43) ma indicano una bassa fiducia nel 95,9% delle loro risposte sulla qualità del ragionamento. Il nostro lavoro mostra che le persone funzionano come precedenti comportamentali che introducono compromessi contestuali piuttosto che garanzie di sicurezza o competenza. Il codice è disponibile all'indirizzo https://github.com/rsinghlab/Persona_Paradox.

English

Persona conditioning can be viewed as a behavioral prior for large language models (LLMs) and is often assumed to confer expertise and improve safety in a monotonic manner. However, its effects on high-stakes clinical decision-making remain poorly characterized. We systematically evaluate persona-based control in clinical LLMs, examining how professional roles (e.g., Emergency Department physician, nurse) and interaction styles (bold vs.\ cautious) influence behavior across models and medical tasks. We assess performance on clinical triage and patient-safety tasks using multidimensional evaluations that capture task accuracy, calibration, and safety-relevant risk behavior. We find systematic, context-dependent, and non-monotonic effects: Medical personas improve performance in critical care tasks, yielding gains of up to sim+20% in accuracy and calibration, but degrade performance in primary-care settings by comparable margins. Interaction style modulates risk propensity and sensitivity, but it's highly model-dependent. While aggregated LLM-judge rankings favor medical over non-medical personas in safety-critical cases, we found that human clinicians show moderate agreement on safety compliance (average Cohen's κ= 0.43) but indicate a low confidence in 95.9\% of their responses on reasoning quality. Our work shows that personas function as behavioral priors that introduce context-dependent trade-offs rather than guarantees of safety or expertise. The code is available at https://github.com/rsinghlab/Persona\_Paradox.

Il Paradosso della Persona: le Personae Mediche come Prior Comportamentali nei Modelli Linguistici Clinici

The Persona Paradox: Medical Personas as Behavioral Priors in Clinical Language Models

Abstract

Support