ChatPaper.aiChatPaper

Mesma Pergunta, Fonte Diferente, Resposta Diferente: Auditoria da Dependência de Fontes em RAG Médico de Múltiplas Fontes

Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG

May 27, 2026
Autores: Yubo Li, Rema Padman, Ramayya Krishnan
cs.AI

Resumo

Um sistema de geração aumentada por recuperação (RAG) implantado sobre um corpus institucional de múltiplos autores pode dar uma resposta diferente para a mesma pergunta, dependendo de qual fonte ele recupera — um modo de falha que o paradigma dominante de resposta única de ouro não consegue diagnosticar. Argumentamos que a dependência de fonte é um eixo faltante da avaliação em PLN, e que auditá-la significa deslocar a unidade de avaliação da correção da resposta para a relação entre fontes. Tornamos isso concreto na educação de pacientes transplantados, onde fontes institucionais demonstravelmente discordam, liberando três artefatos: TransplantQA, um referencial de perguntas reais de pacientes, cada uma respondida fundamentando a geração em múltiplos manuais institucionais como fontes candidatas; HERO-QA, uma estratégia de recuperação hierárquica que fundamenta e audita cada resposta; e um avaliador de saída estruturada que pontua relações entre fontes em uma taxonomia validada de 5 rótulos. Em escala, uma recuperação melhor revela muito mais discordância do que estimativas anteriores sugeriam — subestimando sua prevalência, não sua intensidade. O arcabouço é agnóstico em relação ao domínio e se transfere para RAG jurídico e educacional: medir a dependência de fonte é uma responsabilidade para o PLN multi-fonte implantado em geral.
English
A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.