Когда документы противоречат друг другу: измерение институциональных различий в рекомендациях по трансплантации с помощью языковых моделей, дополненных поиском

Аннотация

Материалы для обучения пациентов, посвященные трансплантации солидных органов, существенно различаются в разных медицинских центрах США, однако не существует систематического метода для количественной оценки этой неоднородности в крупных масштабах. Мы представляем методологию, которая закрепляет одни и те же вопросы пациентов в руководствах различных центров с использованием языковых моделей, дополненных поиском, и сравнивает полученные ответы с помощью таксономии согласованности из пяти категорий. Примененная к 102 руководствам из 23 центров и 1115 контрольным вопросам, методология количественно оценивает неоднородность по четырем измерениям: вопрос, тема, орган и центр. Мы обнаружили, что 20,8% попарных сравнений (где ответы присутствуют) демонстрируют клинически значимые расхождения, сконцентрированные в темах мониторинга состояния и образа жизни. Пробелы в охвате информации еще более выражены: в 96,2% пар «вопрос-руководство» отсутствует релевантное содержание, при этом в 95,1% случаев отсутствует информация о репродуктивном здоровье. Профили расхождений на уровне центров стабильны и интерпретируемы, где неоднородность отражает систематические институциональные различия, вероятно, обусловленные разнообразием пациентов. Эти результаты выявляют информационный пробел в обучающих материалах для пациентов с трансплантатами, а использование ответов на медицинские вопросы с опорой на документы подчеркивает возможности для улучшения содержания.

English

Patient education materials for solid-organ transplantation vary substantially across U.S. centers, yet no systematic method exists to quantify this heterogeneity at scale. We introduce a framework that grounds the same patient questions in different centers' handbooks using retrieval-augmented language models and compares the resulting answers using a five-label consistency taxonomy. Applied to 102 handbooks from 23 centers and 1,115 benchmark questions, the framework quantifies heterogeneity across four dimensions: question, topic, organ, and center. We find that 20.8% of non-absent pairwise comparisons exhibit clinically meaningful divergence, concentrated in condition monitoring and lifestyle topics. Coverage gaps are even more prominent: 96.2% of question-handbook pairs miss relevant content, with reproductive health at 95.1% absence. Center-level divergence profiles are stable and interpretable, where heterogeneity reflects systematic institutional differences, likely due to patient diversity. These findings expose an information gap in transplant patient education materials, with document-grounded medical question answering highlighting opportunities for content improvement.

Когда документы противоречат друг другу: измерение институциональных различий в рекомендациях по трансплантации с помощью языковых моделей, дополненных поиском

When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models

Аннотация

Support