ChatPaper.aiChatPaper

개인 건강 대형 언어 모델을 향하여

Towards a Personal Health Large Language Model

June 10, 2024
저자: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
cs.AI

초록

건강 분야에서 대부분의 대형 언어 모델(LLM) 연구는 임상 작업에 초점을 맞추어 왔습니다. 그러나 이러한 작업에 거의 통합되지 않는 모바일 및 웨어러블 기기들은 개인 건강 모니터링을 위한 풍부하고 장기적인 데이터를 제공합니다. 여기서 우리는 수치형 시계열 개인 건강 데이터를 이해하고 추론하기 위해 Gemini에서 미세 조정된 개인 건강 대형 언어 모델(PH-LLM)을 소개합니다. 우리는 1) 수면 패턴, 신체 활동 및 생리적 반응으로부터 개인화된 통찰과 권장 사항을 생성하는 능력, 2) 전문가 도메인 지식, 3) 자가 보고된 수면 결과 예측을 테스트하기 위해 세 가지 데이터셋을 생성하고 정제했습니다. 첫 번째 작업을 위해 우리는 도메인 전문가들과 협력하여 수면과 피트니스에서의 실제 시나리오를 평가하기 위해 857개의 사례 연구를 설계했습니다. 도메인별 평가 기준을 통해 종합적으로 평가한 결과, Gemini Ultra 1.0과 PH-LLM은 피트니스에서 전문가의 성능과 통계적으로 차이가 없었으며, 수면에서는 전문가가 여전히 우수하지만 PH-LLM을 미세 조정함으로써 관련 도메인 지식을 사용하고 수면 통찰을 위해 정보를 개인화하는 데 있어 상당한 개선을 이루었습니다. 우리는 PH-LLM의 도메인 지식을 수면 의학 및 피트니스 시험의 객관식 문제를 통해 평가했습니다. PH-LLM은 수면에서 79%, 피트니스에서 88%의 점수를 달성하여 인간 전문가 샘플의 평균 점수를 초과했습니다. 마지막으로, 우리는 PH-LLM을 웨어러블 데이터의 텍스트 및 멀티모달 인코딩 표현으로부터 자가 보고된 수면 품질 결과를 예측하도록 훈련시켰으며, 특수화된 판별 모델의 성능을 맞추기 위해서는 멀티모달 인코딩이 필요함을 입증했습니다. 안전이 중요한 개인 건강 도메인에서 추가 개발과 평가가 필요하지만, 이러한 결과는 Gemini 모델의 광범위한 지식과 능력, 그리고 PH-LLM에서 수행한 것처럼 생리학적 데이터를 개인 건강 응용 프로그램에 맞게 맥락화하는 이점을 보여줍니다.
English
In health, most large language model (LLM) research has focused on clinical tasks. However, mobile and wearable devices, which are rarely integrated into such tasks, provide rich, longitudinal data for personal health monitoring. Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from Gemini for understanding and reasoning over numerical time-series personal health data. We created and curated three datasets that test 1) production of personalized insights and recommendations from sleep patterns, physical activity, and physiological responses, 2) expert domain knowledge, and 3) prediction of self-reported sleep outcomes. For the first task we designed 857 case studies in collaboration with domain experts to assess real-world scenarios in sleep and fitness. Through comprehensive evaluation of domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not statistically different from expert performance in fitness and, while experts remain superior for sleep, fine-tuning PH-LLM provided significant improvements in using relevant domain knowledge and personalizing information for sleep insights. We evaluated PH-LLM domain knowledge using multiple choice sleep medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on fitness, exceeding average scores from a sample of human experts. Finally, we trained PH-LLM to predict self-reported sleep quality outcomes from textual and multimodal encoding representations of wearable data, and demonstrate that multimodal encoding is required to match performance of specialized discriminative models. Although further development and evaluation are necessary in the safety-critical personal health domain, these results demonstrate both the broad knowledge and capabilities of Gemini models and the benefit of contextualizing physiological data for personal health applications as done with PH-LLM.

Summary

AI-Generated Summary

PDF250December 8, 2024