MIRIAD: Aumento de los LLM con millones de pares de consulta-respuesta médica
MIRIAD: Augmenting LLMs with millions of medical query-response pairs
June 6, 2025
Autores: Qinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor
cs.AI
Resumen
Los LLM están destinados a transformar la atención médica con soporte avanzado para la toma de decisiones y asistentes de chat flexibles. Sin embargo, los LLM tienden a generar contenido médico inexacto. Para fundamentar los LLM en conocimiento médico de alta calidad, se han equipado con conocimiento externo mediante RAG, donde el conocimiento médico no estructurado se divide en pequeños fragmentos de texto que pueden recuperarse selectivamente e integrarse en el contexto de los LLM. No obstante, las canalizaciones RAG existentes dependen de texto médico crudo y no estructurado, que puede ser ruidoso, no curado y difícil de aprovechar eficazmente por los LLM. En general, faltan enfoques sistemáticos para organizar el conocimiento médico de manera que se presente de la mejor manera a los LLM. Para abordar estos desafíos, presentamos MIRIAD, un corpus a gran escala y curado de 5,821,948 pares de preguntas y respuestas médicas, cada uno reformulado y fundamentado en un pasaje de la literatura médica revisada por pares utilizando una canalización semiautomatizada que combina generación de LLM, filtrado, fundamentación y anotación humana. A diferencia de los corpus médicos anteriores, que dependen de texto no estructurado, MIRIAD encapsula conocimiento médico a escala web en un formato operativo de consulta-respuesta, lo que permite una recuperación más dirigida. Los experimentos en benchmarks desafiantes de preguntas y respuestas médicas muestran que aumentar los LLM con MIRIAD mejora la precisión hasta un 6.7% en comparación con las líneas base RAG no estructuradas con el mismo corpus fuente y con la misma cantidad de texto recuperado. Además, MIRIAD mejoró la capacidad de los LLM para detectar alucinaciones médicas entre un 22.5% y un 37% (aumento en la puntuación F1). También presentamos MIRIAD-Atlas, un mapa interactivo de MIRIAD que abarca 56 disciplinas médicas, permitiendo a los usuarios clínicos explorar, buscar y refinar visualmente el conocimiento médico. MIRIAD promete desbloquear una gran cantidad de aplicaciones posteriores, incluyendo recuperadores de información médica, aplicaciones RAG mejoradas e interfaces de chat fundamentadas en conocimiento, lo que en última instancia permite aplicaciones de LLM más confiables en la atención médica.
English
LLMs are bound to transform healthcare with advanced decision support and
flexible chat assistants. However, LLMs are prone to generate inaccurate
medical content. To ground LLMs in high-quality medical knowledge, LLMs have
been equipped with external knowledge via RAG, where unstructured medical
knowledge is split into small text chunks that can be selectively retrieved and
integrated into the LLMs context. Yet, existing RAG pipelines rely on raw,
unstructured medical text, which can be noisy, uncurated and difficult for LLMs
to effectively leverage. Systematic approaches to organize medical knowledge to
best surface it to LLMs are generally lacking. To address these challenges, we
introduce MIRIAD, a large-scale, curated corpus of 5,821,948 medical QA pairs,
each rephrased from and grounded in a passage from peer-reviewed medical
literature using a semi-automated pipeline combining LLM generation, filtering,
grounding, and human annotation. Unlike prior medical corpora, which rely on
unstructured text, MIRIAD encapsulates web-scale medical knowledge in an
operationalized query-response format, which enables more targeted retrieval.
Experiments on challenging medical QA benchmarks show that augmenting LLMs with
MIRIAD improves accuracy up to 6.7% compared to unstructured RAG baselines with
the same source corpus and with the same amount of retrieved text. Moreover,
MIRIAD improved the ability of LLMs to detect medical hallucinations by 22.5 to
37% (increase in F1 score). We further introduce MIRIAD-Atlas, an interactive
map of MIRIAD spanning 56 medical disciplines, enabling clinical users to
visually explore, search, and refine medical knowledge. MIRIAD promises to
unlock a wealth of down-stream applications, including medical information
retrievers, enhanced RAG applications, and knowledge-grounded chat interfaces,
which ultimately enables more reliable LLM applications in healthcare.