Wanneer documenten tegenstrijdig zijn: Het meten van institutionele variatie in transplantatierichtlijnen met retrieval-augmented language models.
When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models
March 23, 2026
Auteurs: Yubo Li, Ramayya Krishnan, Rema Padman
cs.AI
Samenvatting
Patiëntenvoorlichtingsmaterialen voor vaste-orgaantransplantaties verschillen aanzienlijk tussen Amerikaanse centra, maar er bestaat geen systematische methode om deze heterogeniteit op grote schaal te kwantificeren. Wij introduceren een raamwerk dat dezelfde patiëntenvragen verankert in verschillende handboeken van centra met behulp van retrieval-augmented taalmodellen en de resulterende antwoorden vergelijkt aan de hand van een taxonomie met vijf consistentielabels. Toegepast op 102 handboeken van 23 centra en 1.115 benchmarkvragen, kwantificeert het raamwerk heterogeniteit langs vier dimensies: vraag, onderwerp, orgaan en centrum. Wij constateren dat 20,8% van de niet-afwezige paarsgewijze vergelijkingen klinisch betekenisvolle divergentie vertoont, geconcentreerd in onderwerpen als conditiemonitoring en leefstijl. Dekkingshiaten zijn nog prominenter: 96,2% van de vraag-handboekcombinaties mist relevante content, waarbij reproductieve gezondheid met 95,1% afwezigheid het hoogst scoort. Divergentieprofielen op centrumniveau zijn stabiel en interpreteerbaar, waarbij heterogeniteit systematische institutionele verschillen reflecteert, waarschijnlijk door patiëntdiversiteit. Deze bevindingen leggen een informatiekloof bloot in transplantatiepatiëntenvoorlichtingsmaterialen, waarbij document-gefundeerde medische vraagbeantwoording kansen voor contentverbetering belicht.
English
Patient education materials for solid-organ transplantation vary substantially across U.S. centers, yet no systematic method exists to quantify this heterogeneity at scale. We introduce a framework that grounds the same patient questions in different centers' handbooks using retrieval-augmented language models and compares the resulting answers using a five-label consistency taxonomy. Applied to 102 handbooks from 23 centers and 1,115 benchmark questions, the framework quantifies heterogeneity across four dimensions: question, topic, organ, and center. We find that 20.8% of non-absent pairwise comparisons exhibit clinically meaningful divergence, concentrated in condition monitoring and lifestyle topics. Coverage gaps are even more prominent: 96.2% of question-handbook pairs miss relevant content, with reproductive health at 95.1% absence. Center-level divergence profiles are stable and interpretable, where heterogeneity reflects systematic institutional differences, likely due to patient diversity. These findings expose an information gap in transplant patient education materials, with document-grounded medical question answering highlighting opportunities for content improvement.