Mesma Pergunta, Fonte Diferente, Resposta Diferente: Auditoria da Dependência de Fontes em RAG Médico de Múltiplas Fontes

Resumo

Um sistema de geração aumentada por recuperação (RAG) implantado sobre um corpus institucional de múltiplos autores pode dar uma resposta diferente para a mesma pergunta, dependendo de qual fonte ele recupera — um modo de falha que o paradigma dominante de resposta única de ouro não consegue diagnosticar. Argumentamos que a dependência de fonte é um eixo faltante da avaliação em PLN, e que auditá-la significa deslocar a unidade de avaliação da correção da resposta para a relação entre fontes. Tornamos isso concreto na educação de pacientes transplantados, onde fontes institucionais demonstravelmente discordam, liberando três artefatos: TransplantQA, um referencial de perguntas reais de pacientes, cada uma respondida fundamentando a geração em múltiplos manuais institucionais como fontes candidatas; HERO-QA, uma estratégia de recuperação hierárquica que fundamenta e audita cada resposta; e um avaliador de saída estruturada que pontua relações entre fontes em uma taxonomia validada de 5 rótulos. Em escala, uma recuperação melhor revela muito mais discordância do que estimativas anteriores sugeriam — subestimando sua prevalência, não sua intensidade. O arcabouço é agnóstico em relação ao domínio e se transfere para RAG jurídico e educacional: medir a dependência de fonte é uma responsabilidade para o PLN multi-fonte implantado em geral.

English

A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.