Quando os Documentos Discordam: Medindo a Variação Institucional nas Diretrizes de Transplante com Modelos de Linguagem Aumentados por Recuperação
When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models
March 23, 2026
Autores: Yubo Li, Ramayya Krishnan, Rema Padman
cs.AI
Resumo
Os materiais de educação do paciente para transplante de órgãos sólidos variam substancialmente entre os centros dos EUA, mas não existe um método sistemático para quantificar essa heterogeneidade em larga escala. Apresentamos uma estrutura que ancora as mesmas perguntas do paciente em manuais de diferentes centros usando modelos de linguagem aumentados por recuperação de informação e compara as respostas resultantes usando uma taxonomia de consistência de cinco categorias. Aplicado a 102 manuais de 23 centros e 1.115 perguntas de referência, o framework quantifica a heterogeneidade em quatro dimensões: pergunta, tópico, órgão e centro. Descobrimos que 20,8% das comparações pareadas não ausentes exibem divergência clinicamente significativa, concentrada em tópicos de monitoramento de condições e estilo de vida. As lacunas de cobertura são ainda mais proeminentes: 96,2% dos pares pergunta-manual carecem de conteúdo relevante, com a saúde reprodutiva apresentando 95,1% de ausência. Os perfis de divergência em nível de centro são estáveis e interpretáveis, onde a heterogeneidade reflete diferenças institucionais sistemáticas, provavelmente devido à diversidade de pacientes. Essas descobertas expõem uma lacuna informacional nos materiais educacionais para pacientes transplantados, com sistemas de resposta a perguntas médicas baseadas em documentos destacando oportunidades para melhorias de conteúdo.
English
Patient education materials for solid-organ transplantation vary substantially across U.S. centers, yet no systematic method exists to quantify this heterogeneity at scale. We introduce a framework that grounds the same patient questions in different centers' handbooks using retrieval-augmented language models and compares the resulting answers using a five-label consistency taxonomy. Applied to 102 handbooks from 23 centers and 1,115 benchmark questions, the framework quantifies heterogeneity across four dimensions: question, topic, organ, and center. We find that 20.8% of non-absent pairwise comparisons exhibit clinically meaningful divergence, concentrated in condition monitoring and lifestyle topics. Coverage gaps are even more prominent: 96.2% of question-handbook pairs miss relevant content, with reproductive health at 95.1% absence. Center-level divergence profiles are stable and interpretable, where heterogeneity reflects systematic institutional differences, likely due to patient diversity. These findings expose an information gap in transplant patient education materials, with document-grounded medical question answering highlighting opportunities for content improvement.