К разработке модели крупного языкового моделирования для персонального здоровья.
Towards a Personal Health Large Language Model
June 10, 2024
Авторы: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
cs.AI
Аннотация
В области здравоохранения большинство исследований с использованием крупных языковых моделей (LLM) сосредоточено на клинических задачах. Однако мобильные и носимые устройства, которые редко интегрируются в такие задачи, предоставляют обширные, долговременные данные для мониторинга личного здоровья. Здесь мы представляем Личную Здоровье-ориентированную Большую Языковую Модель (PH-LLM), настроенную на понимание и рассуждение по числовым временным рядам личных данных о здоровье, обученную на основе Gemini. Мы создали и подготовили три набора данных для тестирования: 1) создание персонализированных идей и рекомендаций на основе образцов сна, физической активности и физиологических реакций, 2) экспертные знания в области, и 3) прогнозирование самооцененных результатов сна. Для первой задачи мы разработали 857 кейсовых исследований в сотрудничестве с экспертами в области для оценки реальных сценариев в области сна и фитнеса. Проведя всестороннюю оценку областных рубрик, мы обнаружили, что Gemini Ultra 1.0 и PH-LLM не имеют статистически значимых различий с профессиональным исполнением в области фитнеса, и хотя эксперты остаются превосходящими в области сна, настройка PH-LLM привела к значительным улучшениям в использовании соответствующих областных знаний и персонализации информации для анализа сна. Мы оценили областные знания PH-LLM с использованием экзаменов по сну и фитнесу с выбором из нескольких вариантов ответов. PH-LLM достигла 79% по сну и 88% по фитнесу, превзойдя средние баллы из выборки человеческих экспертов. Наконец, мы обучили PH-LLM предсказывать результаты качества самооценки сна на основе текстового и мультимодального кодирования представлений данных с носимых устройств и продемонстрировали, что мультимодальное кодирование необходимо для достижения производительности специализированных дискриминативных моделей. Хотя дальнейшее развитие и оценка необходимы в области критической безопасности личного здоровья, эти результаты демонстрируют как широкие знания и возможности моделей Gemini, так и пользу контекстуализации физиологических данных для личных здоровье-ориентированных приложений, как это сделано с PH-LLM.
English
In health, most large language model (LLM) research has focused on clinical
tasks. However, mobile and wearable devices, which are rarely integrated into
such tasks, provide rich, longitudinal data for personal health monitoring.
Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from
Gemini for understanding and reasoning over numerical time-series personal
health data. We created and curated three datasets that test 1) production of
personalized insights and recommendations from sleep patterns, physical
activity, and physiological responses, 2) expert domain knowledge, and 3)
prediction of self-reported sleep outcomes. For the first task we designed 857
case studies in collaboration with domain experts to assess real-world
scenarios in sleep and fitness. Through comprehensive evaluation of
domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not
statistically different from expert performance in fitness and, while experts
remain superior for sleep, fine-tuning PH-LLM provided significant improvements
in using relevant domain knowledge and personalizing information for sleep
insights. We evaluated PH-LLM domain knowledge using multiple choice sleep
medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on
fitness, exceeding average scores from a sample of human experts. Finally, we
trained PH-LLM to predict self-reported sleep quality outcomes from textual and
multimodal encoding representations of wearable data, and demonstrate that
multimodal encoding is required to match performance of specialized
discriminative models. Although further development and evaluation are
necessary in the safety-critical personal health domain, these results
demonstrate both the broad knowledge and capabilities of Gemini models and the
benefit of contextualizing physiological data for personal health applications
as done with PH-LLM.Summary
AI-Generated Summary