Misma pregunta, distinta fuente, distinta respuesta: Auditoría de la dependencia de fuentes en el RAG multiorigen médico

Resumen

Un sistema de generación aumentada por recuperación (RAG) desplegado sobre un corpus institucional de múltiples autores puede proporcionar una respuesta diferente a la misma pregunta según la fuente que recupere, un modo de fallo que el paradigma dominante de respuesta única de referencia no puede diagnosticar. Sostenemos que la dependencia de fuentes es un eje faltante en la evaluación de PLN, y que auditarla implica trasladar la unidad de evaluación de la corrección de la respuesta a la relación entre fuentes. Concretamos esto en el contexto de la educación de pacientes de trasplante, donde fuentes institucionales discrepan claramente, publicando tres artefactos: TransplantQA, un punto de referencia de preguntas reales de pacientes, cada una respondida mediante la generación fundamentada en múltiples manuales institucionales como fuentes candidatas; HERO-QA, una estrategia de recuperación jerárquica que fundamenta y audita cada respuesta; y un juez de salida estructurada que puntúa las relaciones entre fuentes en una taxonomía validada de 5 etiquetas. A escala, una mejor recuperación revela mucho más desacuerdo del que estimaban estudios previos —subestimando su prevalencia, no su intensidad. El marco es agnóstico al dominio y se transfiere a RAG jurídicos y educativos: medir la dependencia de fuentes es una responsabilidad para el PLN desplegado sobre múltiples fuentes en general.

English

A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.