Wenn Dokumente widersprechen: Messung institutioneller Variation in Transplantationsleitlinien mit retrieval-augmentierten Sprachmodellen
When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models
March 23, 2026
Autoren: Yubo Li, Ramayya Krishnan, Rema Padman
cs.AI
Zusammenfassung
Patientenaufklärungsmaterialien zur soliden Organtransplantation variieren in US-Zentren erheblich, doch es existiert keine systematische Methode, um diese Heterogenität im großen Maßstab zu quantifizieren. Wir stellen ein Framework vor, das dieselben Patientenfragen anhand der Handbücher verschiedener Zentren mittels retrieval-augmentierter Sprachmodelle verankert und die resultierenden Antworten anhand einer Fünf-Kategorien-Konsistenz-Taxonomie vergleicht. Angewendet auf 102 Handbücher von 23 Zentren und 1.115 Benchmark-Fragen quantifiziert das Framework die Heterogenität über vier Dimensionen: Frage, Thema, Organ und Zentrum. Wir stellen fest, dass 20,8 % der nicht-fehlenden paarweisen Vergleiche klinisch bedeutsame Abweichungen aufweisen, die sich auf die Themen Zustandsüberwachung und Lebensstil konzentrieren. Abdeckungslücken sind noch ausgeprägter: 96,2 % der Frage-Handbuch-Paare weisen relevante Inhaltslücken auf, wobei reproduktive Gesundheit mit 95,1 % Fehlrate am stärksten betroffen ist. Die abweichungsbezogenen Profile auf Zentrumsebene sind stabil und interpretierbar, wobei die Heterogenität systematische institutionsspezifische Unterschiede widerspiegelt, die likely auf Patientendiversität zurückzuführen sind. Diese Ergebnisse decken eine Informationslücke in transplantationsbezogenen Patientenaufklärungsmaterialien auf, wobei dokumentengestütztes medizinisches Frage-Antwort-Systeme Verbesserungspotenziale in der Inhaltsgestaltung aufzeigen.
English
Patient education materials for solid-organ transplantation vary substantially across U.S. centers, yet no systematic method exists to quantify this heterogeneity at scale. We introduce a framework that grounds the same patient questions in different centers' handbooks using retrieval-augmented language models and compares the resulting answers using a five-label consistency taxonomy. Applied to 102 handbooks from 23 centers and 1,115 benchmark questions, the framework quantifies heterogeneity across four dimensions: question, topic, organ, and center. We find that 20.8% of non-absent pairwise comparisons exhibit clinically meaningful divergence, concentrated in condition monitoring and lifestyle topics. Coverage gaps are even more prominent: 96.2% of question-handbook pairs miss relevant content, with reproductive health at 95.1% absence. Center-level divergence profiles are stable and interpretable, where heterogeneity reflects systematic institutional differences, likely due to patient diversity. These findings expose an information gap in transplant patient education materials, with document-grounded medical question answering highlighting opportunities for content improvement.