Парадокс персонажа: Медицинские персонажи как априорные поведенческие модели в клинических языковых моделях
The Persona Paradox: Medical Personas as Behavioral Priors in Clinical Language Models
January 8, 2026
Авторы: Tassallah Abdullahi, Shrestha Ghosh, Hamish S Fraser, Daniel León Tramontini, Adeel Abbasi, Ghada Bourjeily, Carsten Eickhoff, Ritambhara Singh
cs.AI
Аннотация
Кондиционирование персонажа можно рассматривать как поведенческий априор для больших языковых моделей (LLM), и часто предполагается, что оно монотонно повышает экспертизу и безопасность. Однако его влияние на принятие клинических решений в условиях высоких рисков остается малоизученным. Мы систематически оцениваем управление на основе персон в клинических LLM, исследуя, как профессиональные роли (например, врач приемного отделения, медсестра) и стили взаимодействия (уверенный vs. осторожный) влияют на поведение моделей при выполнении различных медицинских задач. Мы оцениваем производительность на задачах клинического триажа и безопасности пациентов с помощью многомерных оценок, учитывающих точность, калибровку и риск-ориентированное поведение. Мы выявляем систематические, контекстно-зависимые и немонотонные эффекты: медицинские персоны улучшают производительность в задачах критической помощи, обеспечивая прирост точности и калибровки до ∼+20%, но ухудшают результаты в условиях первичной медико-санитарной помощи на сопоставимые величины. Стиль взаимодействия модулирует склонность к риску и чувствительность, но сильно зависит от модели. Хотя агрегированные рейтинги LLM-судей в safety-критичных случаях отдают предпочтение медицинским персонам перед немедицинскими, мы обнаружили, что врачи-люди демонстрируют умеренное согласие по соблюдению норм безопасности (средний κ Коэна = 0,43), но указывают на низкую уверенность в 95,9% своих ответов относительно качества рассуждений. Наша работа показывает, что персоны функционируют как поведенческие априоры, создающие контекстно-зависимые компромиссы, а не гарантии безопасности или экспертизы. Код доступен по адресу https://github.com/rsinghlab/Persona\_Paradox.
English
Persona conditioning can be viewed as a behavioral prior for large language models (LLMs) and is often assumed to confer expertise and improve safety in a monotonic manner. However, its effects on high-stakes clinical decision-making remain poorly characterized. We systematically evaluate persona-based control in clinical LLMs, examining how professional roles (e.g., Emergency Department physician, nurse) and interaction styles (bold vs.\ cautious) influence behavior across models and medical tasks. We assess performance on clinical triage and patient-safety tasks using multidimensional evaluations that capture task accuracy, calibration, and safety-relevant risk behavior. We find systematic, context-dependent, and non-monotonic effects: Medical personas improve performance in critical care tasks, yielding gains of up to sim+20% in accuracy and calibration, but degrade performance in primary-care settings by comparable margins. Interaction style modulates risk propensity and sensitivity, but it's highly model-dependent. While aggregated LLM-judge rankings favor medical over non-medical personas in safety-critical cases, we found that human clinicians show moderate agreement on safety compliance (average Cohen's κ= 0.43) but indicate a low confidence in 95.9\% of their responses on reasoning quality. Our work shows that personas function as behavioral priors that introduce context-dependent trade-offs rather than guarantees of safety or expertise. The code is available at https://github.com/rsinghlab/Persona\_Paradox.