Gleiche Frage, andere Quelle, andere Antwort: Überprüfung der Quellenabhängigkeit in medizinischen Multi-Quellen-RAG

Zusammenfassung

Ein Retrieval-gestütztes Generierungssystem (RAG), das über einem institutionellen Korpus mit mehreren Autoren eingesetzt wird, kann dieselbe Frage je nach der abgerufenen Quelle unterschiedlich beantworten – ein Fehlermodus, den das vorherrschende Einzel-Goldstandard-Paradigma nicht diagnostizieren kann. Wir argumentieren, dass Quellenabhängigkeit eine fehlende Achse der NLP-Evaluierung darstellt und dass ihre Prüfung bedeutet, die Evaluierungseinheit von der Korrektheit der Antwort auf die Beziehung zwischen den Quellen zu verlagern. Wir konkretisieren dies am Beispiel der Aufklärung von Transplantationspatienten, wo institutionelle Quellen nachweislich voneinander abweichen, und veröffentlichen drei Artefakte: TransplantQA, einen Benchmark mit echten Patienten-fragen, die jeweils durch die Verankerung der Generierung in mehreren institutionellen Handbüchern als potenziellen Quellen beantwortet werden; HERO-QA, eine hierarchische Retrieval-Strategie, die jede Antwort verankert und prüft; sowie einen strukturierten Bewerter, der Zwischenquellenbeziehungen anhand einer validierten 5-Label-Taxonomie bewertet. Im großen Maßstab deckt besseres Retrieval weit mehr Uneinigkeit auf als frühere Schätzungen vermuten ließen – es unterschätzt deren Häufigkeit, nicht ihre Intensität. Das Framework ist domänenunabhängig und auf juristische sowie bildungsbezogene RAG-Systeme übertragbar: Die Messung von Quellenabhängigkeit ist eine Verantwortung für eingesetzte Multi-Quellen-NLP-Systeme im Allgemeinen.

English

A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.