Dezelfde vraag, andere bron, ander antwoord: het auditen van bronafhankelijkheid in medische multi-bron RAG

Samenvatting

Een retrieval-augmented generation (RAG)-systeem dat wordt ingezet op een institutioneel corpus met meerdere auteurs kan een verschillend antwoord geven op dezelfde vraag, afhankelijk van welke bron het ophaalt – een faalmodus die het dominante paradigma van één enkel gouden antwoord niet kan diagnosticeren. Wij stellen dat bronafhankelijkheid een ontbrekende as is van NLP-evaluatie, en dat het auditen ervan betekent dat de evaluatie-eenheid verschuift van antwoordcorrectheid naar de inter-bronrelatie. We maken dit concreet in voorlichting aan transplantatiepatiënten, waar institutionele bronnen aantoonbaar van mening verschillen, en brengen drie artefacten uit: TransplantQA, een benchmark van echte patiëntvragen, elk beantwoord door generatie te baseren op meerdere institutionele handboeken als kandidaatbronnen; HERO-QA, een hiërarchische opzoekingsstrategie die elk antwoord onderbouwt en auditt; en een gestructureerde-output-beoordelaar die inter-bronrelaties scoort op een gevalideerde taxonomie van 5 labels. Op grote schaal laat beter opzoeken veel meer onenigheid zien dan eerdere schattingen suggereerden – het onderschat de prevalentie ervan, niet de intensiteit. Het raamwerk is domeinagnostisch en overdraagbaar naar juridische en educatieve RAG: het meten van bronafhankelijkheid is een verantwoordelijkheid voor ingezette multi-bron NLP in het algemeen.

English

A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.