Один вопрос, разные источники, разные ответы: аудит зависимости от источников в медицинском мультиисточниковом RAG

Аннотация

Система генерации с дополнением извлечением (RAG), развернутая в многоавторском институциональном корпусе, может давать разные ответы на один и тот же вопрос в зависимости от того, какой источник она извлекает — это режим отказа, который доминирующая парадигма одного эталонного ответа неспособна диагностировать. Мы утверждаем, что зависимость от источника является отсутствующей осью оценки в области НЛП, и что ее аудит подразумевает смещение единицы оценки с правильности ответа на межъисточниковые отношения. Мы конкретизируем это на примере обучения пациентов с трансплантацией, где институциональные источники демонстрируют разногласия, и выпускаем три артефакта: TransplantQA — бенчмарк реальных вопросов пациентов, каждый из которых отвечается путем привязки генерации к нескольким институциональным руководствам в качестве кандидатных источников; HERO-QA — иерархическую стратегию извлечения, которая привязывает и аудирует каждый ответ; и судью со структурированным выводом, оценивающего межъисточниковые отношения по валидированной таксономии из 5 меток. В крупном масштабе улучшенное извлечение выявляет гораздо больше разногласий, чем предполагалось ранее — занижая их распространенность, а не интенсивность. Данная методология является предметно-независимой и переносится на RAG в юридической и образовательной сферах: измерение зависимости от источника — это ответственность для любой развернутой многоисточниковой системы НЛП в целом.

English

A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.