MIRIAD : Amélioration des LLM grâce à des millions de paires requête-réponse médicales
MIRIAD: Augmenting LLMs with millions of medical query-response pairs
June 6, 2025
Auteurs: Qinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor
cs.AI
Résumé
Les LLM (modèles de langage de grande taille) sont appelés à transformer les soins de santé grâce à un support décisionnel avancé et à des assistants conversationnels flexibles. Cependant, les LLM ont tendance à générer des contenus médicaux inexacts. Pour ancrer les LLM dans des connaissances médicales de haute qualité, ils ont été équipés de connaissances externes via RAG (Retrieval-Augmented Generation), où les connaissances médicales non structurées sont divisées en petits segments de texte pouvant être sélectivement récupérés et intégrés dans le contexte des LLM. Pourtant, les pipelines RAG existants reposent sur des textes médicaux bruts et non structurés, qui peuvent être bruyants, non vérifiés et difficiles à exploiter efficacement par les LLM. Les approches systématiques pour organiser les connaissances médicales afin de les rendre plus accessibles aux LLM font généralement défaut. Pour relever ces défis, nous présentons MIRIAD, un corpus à grande échelle et soigneusement organisé de 5 821 948 paires de questions-réponses médicales, chacune reformulée et ancrée dans un passage de la littérature médicale évaluée par des pairs, grâce à un pipeline semi-automatisé combinant génération par LLM, filtrage, ancrage et annotation humaine. Contrairement aux corpus médicaux précédents, qui reposent sur du texte non structuré, MIRIAD encapsule des connaissances médicales à l'échelle du web dans un format opérationnel de question-réponse, permettant une récupération plus ciblée. Les expériences sur des benchmarks exigeants de questions-réponses médicales montrent que l'augmentation des LLM avec MIRIAD améliore la précision jusqu'à 6,7 % par rapport aux bases de référence RAG non structurées utilisant le même corpus source et la même quantité de texte récupéré. De plus, MIRIAD a amélioré la capacité des LLM à détecter les hallucinations médicales de 22,5 à 37 % (augmentation du score F1). Nous introduisons également MIRIAD-Atlas, une carte interactive de MIRIAD couvrant 56 disciplines médicales, permettant aux utilisateurs cliniques d'explorer, de rechercher et d'affiner visuellement les connaissances médicales. MIRIAD promet de débloquer une multitude d'applications en aval, notamment des systèmes de recherche d'informations médicales, des applications RAG améliorées et des interfaces conversationnelles ancrées dans la connaissance, permettant finalement des applications LLM plus fiables dans le domaine de la santé.
English
LLMs are bound to transform healthcare with advanced decision support and
flexible chat assistants. However, LLMs are prone to generate inaccurate
medical content. To ground LLMs in high-quality medical knowledge, LLMs have
been equipped with external knowledge via RAG, where unstructured medical
knowledge is split into small text chunks that can be selectively retrieved and
integrated into the LLMs context. Yet, existing RAG pipelines rely on raw,
unstructured medical text, which can be noisy, uncurated and difficult for LLMs
to effectively leverage. Systematic approaches to organize medical knowledge to
best surface it to LLMs are generally lacking. To address these challenges, we
introduce MIRIAD, a large-scale, curated corpus of 5,821,948 medical QA pairs,
each rephrased from and grounded in a passage from peer-reviewed medical
literature using a semi-automated pipeline combining LLM generation, filtering,
grounding, and human annotation. Unlike prior medical corpora, which rely on
unstructured text, MIRIAD encapsulates web-scale medical knowledge in an
operationalized query-response format, which enables more targeted retrieval.
Experiments on challenging medical QA benchmarks show that augmenting LLMs with
MIRIAD improves accuracy up to 6.7% compared to unstructured RAG baselines with
the same source corpus and with the same amount of retrieved text. Moreover,
MIRIAD improved the ability of LLMs to detect medical hallucinations by 22.5 to
37% (increase in F1 score). We further introduce MIRIAD-Atlas, an interactive
map of MIRIAD spanning 56 medical disciplines, enabling clinical users to
visually explore, search, and refine medical knowledge. MIRIAD promises to
unlock a wealth of down-stream applications, including medical information
retrievers, enhanced RAG applications, and knowledge-grounded chat interfaces,
which ultimately enables more reliable LLM applications in healthcare.