ChatPaper.aiChatPaper

Auf dem Weg zu einem persönlichen Gesundheitsmodell mit großem Sprachumfang.

Towards a Personal Health Large Language Model

June 10, 2024
papers.authors: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
cs.AI

papers.abstract

Im Gesundheitsbereich lag der Schwerpunkt der Forschung zu großen Sprachmodellen (LLM) hauptsächlich auf klinischen Aufgaben. Mobile und tragbare Geräte, die selten in solche Aufgaben integriert sind, liefern jedoch umfangreiche, longitudinale Daten für die persönliche Gesundheitsüberwachung. Hier präsentieren wir das Personal Health Large Language Model (PH-LLM), das von Gemini feinabgestimmt wurde, um numerische Zeitreihen persönlicher Gesundheitsdaten zu verstehen und zu analysieren. Wir haben drei Datensätze erstellt und kuratiert, die 1) die Erstellung personalisierter Einblicke und Empfehlungen aus Schlafmustern, körperlicher Aktivität und physiologischen Reaktionen, 2) das Expertenwissen und 3) die Vorhersage selbstberichteter Schlafergebnisse testen. Für die erste Aufgabe haben wir in Zusammenarbeit mit Fachexperten 857 Fallstudien entworfen, um reale Szenarien im Schlaf und Fitness zu bewerten. Durch umfassende Evaluation von domänenspezifischen Bewertungskriterien stellten wir fest, dass Gemini Ultra 1.0 und PH-LLM statistisch gesehen keine Unterschiede zur Expertenleistung in Fitness aufweisen, während Experten im Bereich Schlaf überlegen bleiben. Die Feinabstimmung von PH-LLM führte jedoch zu signifikanten Verbesserungen bei der Nutzung relevanter Domänenkenntnisse und der Personalisierung von Informationen für Schlafanalysen. Wir bewerteten das Domänenwissen von PH-LLM anhand von Multiple-Choice-Schlafmedizin- und Fitnessprüfungen. PH-LLM erzielte 79 % bei Schlaf und 88 % bei Fitness und übertraf damit die durchschnittlichen Punktzahlen einer Stichprobe von menschlichen Experten. Schließlich haben wir PH-LLM darauf trainiert, selbstberichtete Schlafqualitätsergebnisse aus textuellen und multimodalen Kodierungsrepräsentationen von tragbaren Daten vorherzusagen und gezeigt, dass multimodale Kodierung erforderlich ist, um die Leistung spezialisierter diskriminativer Modelle zu erreichen. Obwohl weitere Entwicklung und Evaluation im sicherheitskritischen Bereich der persönlichen Gesundheit erforderlich sind, zeigen diese Ergebnisse sowohl das breite Wissen und die Fähigkeiten der Gemini-Modelle als auch den Nutzen der Kontextualisierung physiologischer Daten für persönliche Gesundheitsanwendungen, wie es bei PH-LLM durchgeführt wurde.
English
In health, most large language model (LLM) research has focused on clinical tasks. However, mobile and wearable devices, which are rarely integrated into such tasks, provide rich, longitudinal data for personal health monitoring. Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from Gemini for understanding and reasoning over numerical time-series personal health data. We created and curated three datasets that test 1) production of personalized insights and recommendations from sleep patterns, physical activity, and physiological responses, 2) expert domain knowledge, and 3) prediction of self-reported sleep outcomes. For the first task we designed 857 case studies in collaboration with domain experts to assess real-world scenarios in sleep and fitness. Through comprehensive evaluation of domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not statistically different from expert performance in fitness and, while experts remain superior for sleep, fine-tuning PH-LLM provided significant improvements in using relevant domain knowledge and personalizing information for sleep insights. We evaluated PH-LLM domain knowledge using multiple choice sleep medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on fitness, exceeding average scores from a sample of human experts. Finally, we trained PH-LLM to predict self-reported sleep quality outcomes from textual and multimodal encoding representations of wearable data, and demonstrate that multimodal encoding is required to match performance of specialized discriminative models. Although further development and evaluation are necessary in the safety-critical personal health domain, these results demonstrate both the broad knowledge and capabilities of Gemini models and the benefit of contextualizing physiological data for personal health applications as done with PH-LLM.
PDF250December 8, 2024