Vers un modèle de langage à grande échelle pour la santé personnelle
Towards a Personal Health Large Language Model
June 10, 2024
Auteurs: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
cs.AI
Résumé
Dans le domaine de la santé, la plupart des recherches sur les grands modèles de langage (LLM) se sont concentrées sur les tâches cliniques. Cependant, les appareils mobiles et portables, rarement intégrés dans ces tâches, fournissent des données riches et longitudinales pour le suivi de la santé personnelle. Nous présentons ici le Personal Health Large Language Model (PH-LLM), affiné à partir de Gemini pour comprendre et raisonner sur des données numériques de séries temporelles relatives à la santé personnelle. Nous avons créé et organisé trois ensembles de données pour tester 1) la production d’insights et de recommandations personnalisées à partir des habitudes de sommeil, de l’activité physique et des réponses physiologiques, 2) les connaissances expertes du domaine, et 3) la prédiction des résultats auto-déclarés sur le sommeil. Pour la première tâche, nous avons conçu 857 études de cas en collaboration avec des experts du domaine afin d’évaluer des scénarios réels liés au sommeil et à la forme physique. À travers une évaluation approfondie de grilles spécifiques au domaine, nous avons observé que Gemini Ultra 1.0 et PH-LLM ne se distinguent pas statistiquement des performances expertes en matière de fitness, et bien que les experts restent supérieurs pour le sommeil, l’affinage de PH-LLM a permis des améliorations significatives dans l’utilisation des connaissances pertinentes du domaine et la personnalisation des informations pour les insights sur le sommeil. Nous avons évalué les connaissances de PH-LLM à l’aide d’examens à choix multiples en médecine du sommeil et en fitness. PH-LLM a obtenu 79 % en sommeil et 88 % en fitness, dépassant les scores moyens d’un échantillon d’experts humains. Enfin, nous avons entraîné PH-LLM à prédire les résultats auto-déclarés sur la qualité du sommeil à partir de représentations textuelles et multimodales des données portables, et démontrons que l’encodage multimodal est nécessaire pour égaler les performances des modèles discriminatifs spécialisés. Bien qu’un développement et une évaluation supplémentaires soient nécessaires dans le domaine critique de la santé personnelle, ces résultats démontrent à la fois l’étendue des connaissances et des capacités des modèles Gemini, ainsi que l’avantage de contextualiser les données physiologiques pour les applications de santé personnelle, comme réalisé avec PH-LLM.
English
In health, most large language model (LLM) research has focused on clinical
tasks. However, mobile and wearable devices, which are rarely integrated into
such tasks, provide rich, longitudinal data for personal health monitoring.
Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from
Gemini for understanding and reasoning over numerical time-series personal
health data. We created and curated three datasets that test 1) production of
personalized insights and recommendations from sleep patterns, physical
activity, and physiological responses, 2) expert domain knowledge, and 3)
prediction of self-reported sleep outcomes. For the first task we designed 857
case studies in collaboration with domain experts to assess real-world
scenarios in sleep and fitness. Through comprehensive evaluation of
domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not
statistically different from expert performance in fitness and, while experts
remain superior for sleep, fine-tuning PH-LLM provided significant improvements
in using relevant domain knowledge and personalizing information for sleep
insights. We evaluated PH-LLM domain knowledge using multiple choice sleep
medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on
fitness, exceeding average scores from a sample of human experts. Finally, we
trained PH-LLM to predict self-reported sleep quality outcomes from textual and
multimodal encoding representations of wearable data, and demonstrate that
multimodal encoding is required to match performance of specialized
discriminative models. Although further development and evaluation are
necessary in the safety-critical personal health domain, these results
demonstrate both the broad knowledge and capabilities of Gemini models and the
benefit of contextualizing physiological data for personal health applications
as done with PH-LLM.Summary
AI-Generated Summary