Quando i Documenti Sono in Disaccordo: Misurare la Variazione Istituzionale nelle Linee Guida sui Trapianti con Modelli Linguistici ad Arricchimento Retrieval

Abstract

I materiali educativi per i pazienti riguardanti il trapianto di organi solidi variano notevolmente tra i centri statunitensi, ma non esiste un metodo sistematico per quantificare questa eterogeneità su larga scala. Introduciamo un framework che ancorando le stesse domande del paziente ai manuali di diversi centri, utilizzando modelli linguistici potenziati dal retrieval, confronta le risultanze risposte utilizzando una tassonomia di consistenza a cinque etichette. Applicato a 102 manuali provenienti da 23 centri e a 1.115 domande di benchmark, il framework quantifica l'eterogeneità lungo quattro dimensioni: domanda, argomento, organo e centro. Rileviamo che il 20,8% dei confronti a coppie non assenti presenta una divergenza clinicamente significativa, concentrata negli argomenti di monitoraggio delle condizioni e stile di vita. Le lacune nella copertura sono ancora più evidenti: il 96,2% delle coppie domanda-manuale presenta contenuti rilevanti mancanti, con la salute riproduttiva al 95,1% di assenza. I profili di divergenza a livello di centro sono stabili e interpretabili, dove l'eterogeneità riflette differenze istituzionali sistematiche, verosimilmente dovute alla diversità dei pazienti. Questi risultati mettono in luce un divario informativo nei materiali educativi per i pazienti trapiantati, con il question answering medico ancorato ai documenti che evidenzia opportunità di miglioramento dei contenuti.

English

Patient education materials for solid-organ transplantation vary substantially across U.S. centers, yet no systematic method exists to quantify this heterogeneity at scale. We introduce a framework that grounds the same patient questions in different centers' handbooks using retrieval-augmented language models and compares the resulting answers using a five-label consistency taxonomy. Applied to 102 handbooks from 23 centers and 1,115 benchmark questions, the framework quantifies heterogeneity across four dimensions: question, topic, organ, and center. We find that 20.8% of non-absent pairwise comparisons exhibit clinically meaningful divergence, concentrated in condition monitoring and lifestyle topics. Coverage gaps are even more prominent: 96.2% of question-handbook pairs miss relevant content, with reproductive health at 95.1% absence. Center-level divergence profiles are stable and interpretable, where heterogeneity reflects systematic institutional differences, likely due to patient diversity. These findings expose an information gap in transplant patient education materials, with document-grounded medical question answering highlighting opportunities for content improvement.

Quando i Documenti Sono in Disaccordo: Misurare la Variazione Istituzionale nelle Linee Guida sui Trapianti con Modelli Linguistici ad Arricchimento Retrieval

When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models

Abstract

Support