Naar een persoonlijk gezondheids groot taalmodel
Towards a Personal Health Large Language Model
June 10, 2024
Auteurs: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
cs.AI
Samenvatting
In de gezondheidszorg heeft het meeste onderzoek naar grote taalmodellen (LLM's) zich gericht op klinische taken. Mobiele en draagbare apparaten, die zelden in dergelijke taken worden geïntegreerd, bieden echter rijke, longitudinale gegevens voor persoonlijke gezondheidsmonitoring. Hier presenteren we het Personal Health Large Language Model (PH-LLM), dat is afgestemd op Gemini voor het begrijpen en redeneren over numerieke tijdreeksgegevens van persoonlijke gezondheid. We hebben drie datasets gemaakt en samengesteld die testen: 1) het genereren van gepersonaliseerde inzichten en aanbevelingen op basis van slaappatronen, fysieke activiteit en fysiologische reacties, 2) expertise in het domein, en 3) de voorspelling van zelfgerapporteerde slaapuitkomsten. Voor de eerste taak hebben we in samenwerking met domeinexperts 857 casestudies ontworpen om realistische scenario's op het gebied van slaap en fitness te beoordelen. Door middel van een uitgebreide evaluatie van domeinspecifieke beoordelingscriteria hebben we geobserveerd dat Gemini Ultra 1.0 en PH-LLM statistisch niet verschillen van de prestaties van experts op het gebied van fitness, en hoewel experts superieur blijven op het gebied van slaap, heeft het afstemmen van PH-LLM aanzienlijke verbeteringen opgeleverd in het gebruik van relevante domeinkennis en het personaliseren van informatie voor slaapinzichten. We hebben de domeinkennis van PH-LLM geëvalueerd met behulp van meerkeuzetoetsen op het gebied van slaapgeneeskunde en fitness. PH-LLM behaalde 79% op slaap en 88% op fitness, wat hoger was dan de gemiddelde scores van een steekproef van menselijke experts. Ten slotte hebben we PH-LLM getraind om zelfgerapporteerde slaapkwaliteitsuitkomsten te voorspellen op basis van tekstuele en multimodale coderingsrepresentaties van draagbare gegevens, en we tonen aan dat multimodale codering nodig is om de prestaties van gespecialiseerde discriminerende modellen te evenaren. Hoewel verdere ontwikkeling en evaluatie noodzakelijk zijn in het veiligheidskritieke domein van persoonlijke gezondheid, tonen deze resultaten zowel de brede kennis en mogelijkheden van Gemini-modellen aan als het voordeel van het contextualiseren van fysiologische gegevens voor persoonlijke gezondheidstoepassingen, zoals gedaan is met PH-LLM.
English
In health, most large language model (LLM) research has focused on clinical
tasks. However, mobile and wearable devices, which are rarely integrated into
such tasks, provide rich, longitudinal data for personal health monitoring.
Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from
Gemini for understanding and reasoning over numerical time-series personal
health data. We created and curated three datasets that test 1) production of
personalized insights and recommendations from sleep patterns, physical
activity, and physiological responses, 2) expert domain knowledge, and 3)
prediction of self-reported sleep outcomes. For the first task we designed 857
case studies in collaboration with domain experts to assess real-world
scenarios in sleep and fitness. Through comprehensive evaluation of
domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not
statistically different from expert performance in fitness and, while experts
remain superior for sleep, fine-tuning PH-LLM provided significant improvements
in using relevant domain knowledge and personalizing information for sleep
insights. We evaluated PH-LLM domain knowledge using multiple choice sleep
medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on
fitness, exceeding average scores from a sample of human experts. Finally, we
trained PH-LLM to predict self-reported sleep quality outcomes from textual and
multimodal encoding representations of wearable data, and demonstrate that
multimodal encoding is required to match performance of specialized
discriminative models. Although further development and evaluation are
necessary in the safety-critical personal health domain, these results
demonstrate both the broad knowledge and capabilities of Gemini models and the
benefit of contextualizing physiological data for personal health applications
as done with PH-LLM.