Même question, source différente, réponse différente : audit de la dépendance aux sources dans le RAG médical multi-source

Résumé

Un système de génération augmentée par récupération (RAG) déployé sur un corpus institutionnel multi-auteur peut apporter une réponse différente à une même question selon la source qu’il récupère – un mode de défaillance que le paradigme dominant de la réponse unique de référence ne peut diagnostiquer. Nous soutenons que la dépendance à la source est un axe manquant de l’évaluation en TALN, et que l’auditer implique de déplacer l’unité d’évaluation de la correction de la réponse vers la relation inter-source. Nous concrétisons cette approche dans le cadre de l’éducation des patients transplantés, où des sources institutionnelles divergent manifestement, en publiant trois artefacts : TransplantQA, un benchmark de questions réelles de patients, chacune étant répondue en ancrant la génération dans plusieurs manuels institutionnels comme sources candidates ; HERO-QA, une stratégie de récupération hiérarchique qui ancre et audite chaque réponse ; et un juge à sortie structurée qui évalue les relations inter-source selon une taxonomie validée à cinq labels. À grande échelle, une meilleure récupération révèle bien plus de désaccords que les estimations antérieures ne le suggéraient – elle sous-estime leur prévalence, non leur intensité. Le cadre est indépendant du domaine et se transpose au RAG juridique et éducatif : mesurer la dépendance à la source est une responsabilité pour tout TALN multi-source déployé en général.

English

A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.