MIRIAD: 수백만 개의 의료 질의-응답 쌍으로 LLM을 강화하기
MIRIAD: Augmenting LLMs with millions of medical query-response pairs
June 6, 2025
저자: Qinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor
cs.AI
초록
LLM(대형 언어 모델)은 고급 의사결정 지원과 유연한 채팅 어시스턴트를 통해 의료 분야를 혁신할 것으로 기대됩니다. 그러나 LLM은 부정확한 의학 정보를 생성할 가능성이 있습니다. LLM을 고품질 의학 지식에 기반하게 하기 위해, RAG(검색 증강 생성)를 통해 외부 지식을 통합하는 방식이 사용되고 있습니다. 이 방식에서는 구조화되지 않은 의학 지식을 작은 텍스트 조각으로 나누어 선택적으로 검색하고 LLM의 컨텍스트에 통합합니다. 그러나 기존의 RAG 파이프라인은 원시적이고 구조화되지 않은 의학 텍스트에 의존하며, 이는 노이즈가 많고 정제되지 않아 LLM이 효과적으로 활용하기 어려운 경우가 많습니다. 의학 지식을 체계적으로 조직화하여 LLM에 효과적으로 제공할 수 있는 방법론은 일반적으로 부족한 실정입니다. 이러한 문제를 해결하기 위해, 우리는 MIRIAD를 소개합니다. MIRIAD는 5,821,948개의 의학 질문-응답 쌍으로 구성된 대규모 정제된 코퍼스로, 각 쌍은 동료 검토를 거친 의학 문헌의 구절을 기반으로 반자동화된 파이프라인을 통해 재구성되었습니다. 이 파이프라인은 LLM 생성, 필터링, 기반 설정 및 인간 주석을 결합합니다. 기존의 구조화되지 않은 텍스트에 의존하는 의학 코퍼스와 달리, MIRIAD는 웹 규모의 의학 지식을 운영 가능한 질문-응답 형식으로 캡슐화하여 더 목표 지향적인 검색을 가능하게 합니다. 도전적인 의학 질문-응답 벤치마크에서의 실험 결과, MIRIAD를 통해 강화된 LLM은 동일한 소스 코퍼스와 동일한 양의 검색 텍스트를 사용하는 구조화되지 않은 RAG 기준선에 비해 최대 6.7%의 정확도 향상을 보였습니다. 또한, MIRIAD는 LLM의 의학적 환각(허구적 정보 생성) 감지 능력을 22.5%에서 37%까지 향상시켰습니다(F1 점수 증가). 더 나아가, 우리는 MIRIAD-Atlas를 소개합니다. 이는 56개의 의학 분야를 아우르는 MIRIAD의 인터랙티브 맵으로, 임상 사용자가 의학 지식을 시각적으로 탐색, 검색 및 정제할 수 있게 합니다. MIRIAD는 의학 정보 검색기, 강화된 RAG 애플리케이션, 지식 기반 채팅 인터페이스 등 다양한 하위 애플리케이션을 가능하게 하여 궁극적으로 의료 분야에서 더 신뢰할 수 있는 LLM 애플리케이션을 가능케 할 것으로 기대됩니다.
English
LLMs are bound to transform healthcare with advanced decision support and
flexible chat assistants. However, LLMs are prone to generate inaccurate
medical content. To ground LLMs in high-quality medical knowledge, LLMs have
been equipped with external knowledge via RAG, where unstructured medical
knowledge is split into small text chunks that can be selectively retrieved and
integrated into the LLMs context. Yet, existing RAG pipelines rely on raw,
unstructured medical text, which can be noisy, uncurated and difficult for LLMs
to effectively leverage. Systematic approaches to organize medical knowledge to
best surface it to LLMs are generally lacking. To address these challenges, we
introduce MIRIAD, a large-scale, curated corpus of 5,821,948 medical QA pairs,
each rephrased from and grounded in a passage from peer-reviewed medical
literature using a semi-automated pipeline combining LLM generation, filtering,
grounding, and human annotation. Unlike prior medical corpora, which rely on
unstructured text, MIRIAD encapsulates web-scale medical knowledge in an
operationalized query-response format, which enables more targeted retrieval.
Experiments on challenging medical QA benchmarks show that augmenting LLMs with
MIRIAD improves accuracy up to 6.7% compared to unstructured RAG baselines with
the same source corpus and with the same amount of retrieved text. Moreover,
MIRIAD improved the ability of LLMs to detect medical hallucinations by 22.5 to
37% (increase in F1 score). We further introduce MIRIAD-Atlas, an interactive
map of MIRIAD spanning 56 medical disciplines, enabling clinical users to
visually explore, search, and refine medical knowledge. MIRIAD promises to
unlock a wealth of down-stream applications, including medical information
retrievers, enhanced RAG applications, and knowledge-grounded chat interfaces,
which ultimately enables more reliable LLM applications in healthcare.