Cuando los Documentos Discrepan: Medición de la Variación Institucional en las Guías de Trasplante con Modelos de Lenguaje Aumentados por Recuperación
When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models
March 23, 2026
Autores: Yubo Li, Ramayya Krishnan, Rema Padman
cs.AI
Resumen
Los materiales educativos para pacientes sobre trasplante de órganos sólidos varían sustancialmente entre los centros de Estados Unidos, sin que exista un método sistemático para cuantificar esta heterogeneidad a gran escala. Presentamos un marco que fundamenta las mismas preguntas del paciente en los manuales de diferentes centros utilizando modelos de lenguaje aumentados por recuperación de información, y compara las respuestas resultantes mediante una taxonomía de consistencia de cinco etiquetas. Aplicado a 102 manuales de 23 centros y 1.115 preguntas de referencia, el marco cuantifica la heterogeneidad en cuatro dimensiones: pregunta, tema, órgano y centro. Encontramos que el 20.8% de las comparaciones pareadas no ausentes exhiben divergencia clínicamente significativa, concentrada en temas de monitorización de condiciones y estilo de vida. Las lagunas de cobertura son aún más prominentes: el 96.2% de los pares pregunta-manual carecen de contenido relevante, con la salud reproductiva mostrando un 95.1% de ausencia. Los perfiles de divergencia a nivel de centro son estables e interpretables, donde la heterogeneidad refleja diferencias institucionales sistemáticas, probablemente debidas a la diversidad de pacientes. Estos hallazgos exponen una brecha informativa en los materiales educativos para pacientes de trasplante, donde la respuesta a preguntas médicas basada en documentos señala oportunidades para mejorar el contenido.
English
Patient education materials for solid-organ transplantation vary substantially across U.S. centers, yet no systematic method exists to quantify this heterogeneity at scale. We introduce a framework that grounds the same patient questions in different centers' handbooks using retrieval-augmented language models and compares the resulting answers using a five-label consistency taxonomy. Applied to 102 handbooks from 23 centers and 1,115 benchmark questions, the framework quantifies heterogeneity across four dimensions: question, topic, organ, and center. We find that 20.8% of non-absent pairwise comparisons exhibit clinically meaningful divergence, concentrated in condition monitoring and lifestyle topics. Coverage gaps are even more prominent: 96.2% of question-handbook pairs miss relevant content, with reproductive health at 95.1% absence. Center-level divergence profiles are stable and interpretable, where heterogeneity reflects systematic institutional differences, likely due to patient diversity. These findings expose an information gap in transplant patient education materials, with document-grounded medical question answering highlighting opportunities for content improvement.