Hacia un Modelo de Lenguaje de Gran Escala para la Salud Personal
Towards a Personal Health Large Language Model
June 10, 2024
Autores: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
cs.AI
Resumen
En el ámbito de la salud, la mayoría de las investigaciones sobre modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) se han centrado en tareas clínicas. Sin embargo, los dispositivos móviles y wearables, que rara vez se integran en dichas tareas, proporcionan datos longitudinales ricos para el monitoreo personal de la salud. Aquí presentamos el Modelo de Lenguaje de Gran Escala para Salud Personal (PH-LLM), ajustado a partir de Gemini para comprender y razonar sobre datos numéricos de series temporales de salud personal. Creamos y curaron tres conjuntos de datos que evalúan 1) la producción de insights y recomendaciones personalizadas a partir de patrones de sueño, actividad física y respuestas fisiológicas, 2) el conocimiento experto del dominio, y 3) la predicción de resultados de sueño autoinformados. Para la primera tarea, diseñamos 857 estudios de caso en colaboración con expertos del dominio para evaluar escenarios del mundo real en sueño y fitness. A través de una evaluación exhaustiva de rúbricas específicas del dominio, observamos que Gemini Ultra 1.0 y PH-LLM no son estadísticamente diferentes del rendimiento experto en fitness y, aunque los expertos siguen siendo superiores en sueño, el ajuste fino de PH-LLM proporcionó mejoras significativas en el uso de conocimiento relevante del dominio y la personalización de información para insights sobre el sueño. Evaluamos el conocimiento del dominio de PH-LLM utilizando exámenes de opción múltiple en medicina del sueño y fitness. PH-LLM logró un 79% en sueño y un 88% en fitness, superando las puntuaciones promedio de una muestra de expertos humanos. Finalmente, entrenamos a PH-LLM para predecir resultados de calidad de sueño autoinformados a partir de representaciones textuales y multimodales de datos de wearables, y demostramos que la codificación multimodal es necesaria para igualar el rendimiento de modelos discriminativos especializados. Aunque se requiere más desarrollo y evaluación en el dominio crítico de la salud personal, estos resultados demuestran tanto el amplio conocimiento y capacidades de los modelos Gemini como el beneficio de contextualizar datos fisiológicos para aplicaciones de salud personal, como se ha hecho con PH-LLM.
English
In health, most large language model (LLM) research has focused on clinical
tasks. However, mobile and wearable devices, which are rarely integrated into
such tasks, provide rich, longitudinal data for personal health monitoring.
Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from
Gemini for understanding and reasoning over numerical time-series personal
health data. We created and curated three datasets that test 1) production of
personalized insights and recommendations from sleep patterns, physical
activity, and physiological responses, 2) expert domain knowledge, and 3)
prediction of self-reported sleep outcomes. For the first task we designed 857
case studies in collaboration with domain experts to assess real-world
scenarios in sleep and fitness. Through comprehensive evaluation of
domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not
statistically different from expert performance in fitness and, while experts
remain superior for sleep, fine-tuning PH-LLM provided significant improvements
in using relevant domain knowledge and personalizing information for sleep
insights. We evaluated PH-LLM domain knowledge using multiple choice sleep
medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on
fitness, exceeding average scores from a sample of human experts. Finally, we
trained PH-LLM to predict self-reported sleep quality outcomes from textual and
multimodal encoding representations of wearable data, and demonstrate that
multimodal encoding is required to match performance of specialized
discriminative models. Although further development and evaluation are
necessary in the safety-critical personal health domain, these results
demonstrate both the broad knowledge and capabilities of Gemini models and the
benefit of contextualizing physiological data for personal health applications
as done with PH-LLM.Summary
AI-Generated Summary