Verso un Modello Linguistico di Grande Scala per la Salute Personale
Towards a Personal Health Large Language Model
June 10, 2024
Autori: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
cs.AI
Abstract
Nel campo della salute, la maggior parte della ricerca sui grandi modelli linguistici (LLM) si è concentrata su compiti clinici. Tuttavia, i dispositivi mobili e indossabili, raramente integrati in tali attività, forniscono dati ricchi e longitudinali per il monitoraggio della salute personale. Qui presentiamo il Personal Health Large Language Model (PH-LLM), ottimizzato a partire da Gemini per comprendere e ragionare su dati numerici di serie temporali relativi alla salute personale. Abbiamo creato e curato tre dataset che testano 1) la produzione di approfondimenti e raccomandazioni personalizzati basati su modelli di sonno, attività fisica e risposte fisiologiche, 2) la conoscenza del dominio esperto e 3) la previsione di esiti auto-riferiti relativi al sonno. Per il primo compito, abbiamo progettato 857 casi di studio in collaborazione con esperti del settore per valutare scenari reali nel sonno e nel fitness. Attraverso una valutazione completa di rubriche specifiche del dominio, abbiamo osservato che Gemini Ultra 1.0 e PH-LLM non sono statisticamente diversi dalle prestazioni degli esperti nel fitness e, sebbene gli esperti rimangano superiori nel sonno, l'ottimizzazione di PH-LLM ha fornito miglioramenti significativi nell'uso della conoscenza del dominio rilevante e nella personalizzazione delle informazioni per gli approfondimenti sul sonno. Abbiamo valutato la conoscenza del dominio di PH-LLM utilizzando esami a scelta multipla di medicina del sonno e fitness. PH-LLM ha ottenuto il 79% nel sonno e l'88% nel fitness, superando i punteggi medi di un campione di esperti umani. Infine, abbiamo addestrato PH-LLM a prevedere gli esiti auto-riferiti della qualità del sonno da rappresentazioni testuali e multimodali dei dati indossabili, dimostrando che è necessaria una codifica multimodale per eguagliare le prestazioni di modelli discriminativi specializzati. Sebbene siano necessari ulteriori sviluppi e valutazioni nel dominio critico per la sicurezza della salute personale, questi risultati dimostrano sia l'ampia conoscenza e le capacità dei modelli Gemini, sia il vantaggio di contestualizzare i dati fisiologici per applicazioni di salute personale, come fatto con PH-LLM.
English
In health, most large language model (LLM) research has focused on clinical
tasks. However, mobile and wearable devices, which are rarely integrated into
such tasks, provide rich, longitudinal data for personal health monitoring.
Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from
Gemini for understanding and reasoning over numerical time-series personal
health data. We created and curated three datasets that test 1) production of
personalized insights and recommendations from sleep patterns, physical
activity, and physiological responses, 2) expert domain knowledge, and 3)
prediction of self-reported sleep outcomes. For the first task we designed 857
case studies in collaboration with domain experts to assess real-world
scenarios in sleep and fitness. Through comprehensive evaluation of
domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not
statistically different from expert performance in fitness and, while experts
remain superior for sleep, fine-tuning PH-LLM provided significant improvements
in using relevant domain knowledge and personalizing information for sleep
insights. We evaluated PH-LLM domain knowledge using multiple choice sleep
medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on
fitness, exceeding average scores from a sample of human experts. Finally, we
trained PH-LLM to predict self-reported sleep quality outcomes from textual and
multimodal encoding representations of wearable data, and demonstrate that
multimodal encoding is required to match performance of specialized
discriminative models. Although further development and evaluation are
necessary in the safety-critical personal health domain, these results
demonstrate both the broad knowledge and capabilities of Gemini models and the
benefit of contextualizing physiological data for personal health applications
as done with PH-LLM.