Quand les documents divergent : Mesurer la variation institutionnelle dans les recommandations en transplantation à l'aide de modèles de langage à augmentation par récupération

Résumé

Les supports d'éducation des patients pour la transplantation d'organes solides varient considérablement entre les centres américains, sans qu'aucune méthode systématique n'existe pour quantifier cette hétérogénéité à grande échelle. Nous présentons un cadre qui ancre les mêmes questions des patients dans les guides de différents centres à l'aide de modèles de langage à récupération augmentée, et compare les réponses obtenues à l'aide d'une taxonomie de cohérence à cinq catégories. Appliqué à 102 guides provenant de 23 centres et à 1 115 questions de référence, ce cadre quantifie l'hétérogénéité selon quatre dimensions : question, thème, organe et centre. Nous constatons que 20,8 % des comparaisons par paires non absentes présentent une divergence cliniquement significative, principalement dans les thèmes du suivi de l'état de santé et du mode de vie. Les lacunes de couverture sont encore plus marquées : 96,2 % des paires question-guide omettent des contenus pertinents, avec une absence de 95,1 % pour la santé reproductive. Les profils de divergence au niveau des centres sont stables et interprétables, où l'hétérogénéité reflète des différences institutionnelles systématiques, probablement dues à la diversité des patients. Ces résultats révèlent un déficit informationnel dans les supports d'éducation des patients transplantés, la réponse aux questions médicales ancrée dans les documents mettant en lumière des opportunités d'amélioration du contenu.

English

Patient education materials for solid-organ transplantation vary substantially across U.S. centers, yet no systematic method exists to quantify this heterogeneity at scale. We introduce a framework that grounds the same patient questions in different centers' handbooks using retrieval-augmented language models and compares the resulting answers using a five-label consistency taxonomy. Applied to 102 handbooks from 23 centers and 1,115 benchmark questions, the framework quantifies heterogeneity across four dimensions: question, topic, organ, and center. We find that 20.8% of non-absent pairwise comparisons exhibit clinically meaningful divergence, concentrated in condition monitoring and lifestyle topics. Coverage gaps are even more prominent: 96.2% of question-handbook pairs miss relevant content, with reproductive health at 95.1% absence. Center-level divergence profiles are stable and interpretable, where heterogeneity reflects systematic institutional differences, likely due to patient diversity. These findings expose an information gap in transplant patient education materials, with document-grounded medical question answering highlighting opportunities for content improvement.

Quand les documents divergent : Mesurer la variation institutionnelle dans les recommandations en transplantation à l'aide de modèles de langage à augmentation par récupération

When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models

Résumé

Support