MIRIAD: Erweiterung von LLMs mit Millionen von medizinischen Frage-Antwort-Paaren
MIRIAD: Augmenting LLMs with millions of medical query-response pairs
June 6, 2025
Autoren: Qinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor
cs.AI
Zusammenfassung
LLMs werden das Gesundheitswesen mit fortschrittlicher Entscheidungsunterstützung und flexiblen Chat-Assistenten revolutionieren. Allerdings neigen LLMs dazu, ungenaue medizinische Inhalte zu generieren. Um LLMs in hochwertigem medizinischen Wissen zu verankern, wurden LLMs mit externem Wissen durch RAG (Retrieval-Augmented Generation) ausgestattet, bei dem unstrukturiertes medizinisches Wissen in kleine Textabschnitte unterteilt wird, die selektiv abgerufen und in den Kontext der LLMs integriert werden können. Dennoch stützen sich bestehende RAG-Pipelines auf rohe, unstrukturierte medizinische Texte, die verrauscht, ungeprüft und für LLMs schwer effektiv nutzbar sein können. Systematische Ansätze, um medizinisches Wissen so zu organisieren, dass es für LLMs optimal zugänglich gemacht wird, fehlen weitgehend. Um diese Herausforderungen zu bewältigen, stellen wir MIRIAD vor, einen groß angelegten, kuratierten Korpus von 5.821.948 medizinischen Frage-Antwort-Paaren, die jeweils aus einem Abschnitt der begutachteten medizinischen Fachliteratur umformuliert und verankert wurden, unter Verwendung einer halbautomatisierten Pipeline, die LLM-Generierung, Filterung, Verankerung und menschliche Annotation kombiniert. Im Gegensatz zu früheren medizinischen Korpora, die auf unstrukturiertem Text basieren, fasst MIRIAD medizinisches Wissen im Web-Maßstab in einem operationalisierten Frage-Antwort-Format zusammen, das eine gezieltere Abfrage ermöglicht. Experimente mit anspruchsvollen medizinischen QA-Benchmarks zeigen, dass die Erweiterung von LLMs mit MIRIAD die Genauigkeit um bis zu 6,7 % im Vergleich zu unstrukturierten RAG-Baselines mit demselben Quellkorpus und der gleichen Menge an abgerufenem Text verbessert. Darüber hinaus verbesserte MIRIAD die Fähigkeit von LLMs, medizinische Halluzinationen zu erkennen, um 22,5 bis 37 % (Anstieg des F1-Scores). Wir stellen außerdem MIRIAD-Atlas vor, eine interaktive Karte von MIRIAD, die 56 medizinische Disziplinen umfasst und klinischen Nutzern ermöglicht, medizinisches Wissen visuell zu erkunden, zu durchsuchen und zu verfeinern. MIRIAD verspricht, eine Vielzahl von Downstream-Anwendungen zu ermöglichen, darunter medizinische Informationsretriever, verbesserte RAG-Anwendungen und wissensbasierte Chat-Schnittstellen, was letztendlich zuverlässigere LLM-Anwendungen im Gesundheitswesen ermöglicht.
English
LLMs are bound to transform healthcare with advanced decision support and
flexible chat assistants. However, LLMs are prone to generate inaccurate
medical content. To ground LLMs in high-quality medical knowledge, LLMs have
been equipped with external knowledge via RAG, where unstructured medical
knowledge is split into small text chunks that can be selectively retrieved and
integrated into the LLMs context. Yet, existing RAG pipelines rely on raw,
unstructured medical text, which can be noisy, uncurated and difficult for LLMs
to effectively leverage. Systematic approaches to organize medical knowledge to
best surface it to LLMs are generally lacking. To address these challenges, we
introduce MIRIAD, a large-scale, curated corpus of 5,821,948 medical QA pairs,
each rephrased from and grounded in a passage from peer-reviewed medical
literature using a semi-automated pipeline combining LLM generation, filtering,
grounding, and human annotation. Unlike prior medical corpora, which rely on
unstructured text, MIRIAD encapsulates web-scale medical knowledge in an
operationalized query-response format, which enables more targeted retrieval.
Experiments on challenging medical QA benchmarks show that augmenting LLMs with
MIRIAD improves accuracy up to 6.7% compared to unstructured RAG baselines with
the same source corpus and with the same amount of retrieved text. Moreover,
MIRIAD improved the ability of LLMs to detect medical hallucinations by 22.5 to
37% (increase in F1 score). We further introduce MIRIAD-Atlas, an interactive
map of MIRIAD spanning 56 medical disciplines, enabling clinical users to
visually explore, search, and refine medical knowledge. MIRIAD promises to
unlock a wealth of down-stream applications, including medical information
retrievers, enhanced RAG applications, and knowledge-grounded chat interfaces,
which ultimately enables more reliable LLM applications in healthcare.