MedMobile: Un modelo de lenguaje del tamaño de un dispositivo móvil con capacidades clínicas de nivel experto

Resumen

Los modelos de lenguaje (LMs) han demostrado habilidades de razonamiento y recuerdo a nivel experto en medicina. Sin embargo, los costos computacionales y las preocupaciones sobre la privacidad están aumentando como barreras para una implementación a gran escala. Presentamos una adaptación parsimoniosa de phi-3-mini, MedMobile, un LM de 3.8 mil millones de parámetros capaz de ejecutarse en un dispositivo móvil, para aplicaciones médicas. Demostramos que MedMobile obtiene un puntaje del 75.7% en el MedQA (USMLE), superando la marca de aprobación para médicos (~60%), y acercándose a los puntajes de modelos 100 veces más grandes. Posteriormente realizamos un conjunto cuidadoso de ablaciones, y demostramos que la cadena de pensamiento, el ensamblaje y el ajuste fino conducen a los mayores aumentos de rendimiento, mientras que inesperadamente la generación aumentada por recuperación no logra demostrar mejoras significativas.

English

Language models (LMs) have demonstrated expert-level reasoning and recall abilities in medicine. However, computational costs and privacy concerns are mounting barriers to wide-scale implementation. We introduce a parsimonious adaptation of phi-3-mini, MedMobile, a 3.8 billion parameter LM capable of running on a mobile device, for medical applications. We demonstrate that MedMobile scores 75.7% on the MedQA (USMLE), surpassing the passing mark for physicians (~60%), and approaching the scores of models 100 times its size. We subsequently perform a careful set of ablations, and demonstrate that chain of thought, ensembling, and fine-tuning lead to the greatest performance gains, while unexpectedly retrieval augmented generation fails to demonstrate significant improvements

MedMobile: Un modelo de lenguaje del tamaño de un dispositivo móvil con capacidades clínicas de nivel experto

MedMobile: A mobile-sized language model with expert-level clinical capabilities

Resumen

Support