ChatPaper.aiChatPaper

Rumo a um Modelo de Linguagem de Grande Escala para Saúde Pessoal

Towards a Personal Health Large Language Model

June 10, 2024
Autores: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
cs.AI

Resumo

Na área da saúde, a maioria das pesquisas sobre modelos de linguagem de grande escala (LLMs) tem se concentrado em tarefas clínicas. No entanto, dispositivos móveis e wearables, que raramente são integrados a essas tarefas, fornecem dados ricos e longitudinais para o monitoramento pessoal da saúde. Aqui, apresentamos o Personal Health Large Language Model (PH-LLM), ajustado a partir do Gemini para compreender e raciocinar sobre dados numéricos de séries temporais de saúde pessoal. Criamos e organizamos três conjuntos de dados que testam 1) a produção de insights e recomendações personalizadas a partir de padrões de sono, atividade física e respostas fisiológicas, 2) o conhecimento especializado do domínio e 3) a previsão de resultados de sono autorrelatados. Para a primeira tarefa, projetamos 857 estudos de caso em colaboração com especialistas do domínio para avaliar cenários do mundo real em sono e condicionamento físico. Por meio de uma avaliação abrangente de rubricas específicas do domínio, observamos que o Gemini Ultra 1.0 e o PH-LLM não apresentam diferenças estatísticas em relação ao desempenho de especialistas em condicionamento físico e, embora os especialistas permaneçam superiores em sono, o ajuste fino do PH-LLM proporcionou melhorias significativas no uso de conhecimento relevante do domínio e na personalização de informações para insights sobre o sono. Avaliamos o conhecimento do domínio do PH-LLM usando exames de múltipla escolha em medicina do sono e condicionamento físico. O PH-LLM obteve 79% em sono e 88% em condicionamento físico, superando as pontuações médias de uma amostra de especialistas humanos. Por fim, treinamos o PH-LLM para prever resultados de qualidade do sono autorrelatados a partir de representações textuais e multimodais de dados de wearables, e demonstramos que a codificação multimodal é necessária para igualar o desempenho de modelos discriminativos especializados. Embora sejam necessários mais desenvolvimento e avaliação no domínio crítico de segurança da saúde pessoal, esses resultados demonstram tanto o amplo conhecimento e as capacidades dos modelos Gemini quanto o benefício de contextualizar dados fisiológicos para aplicações de saúde pessoal, como feito com o PH-LLM.
English
In health, most large language model (LLM) research has focused on clinical tasks. However, mobile and wearable devices, which are rarely integrated into such tasks, provide rich, longitudinal data for personal health monitoring. Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from Gemini for understanding and reasoning over numerical time-series personal health data. We created and curated three datasets that test 1) production of personalized insights and recommendations from sleep patterns, physical activity, and physiological responses, 2) expert domain knowledge, and 3) prediction of self-reported sleep outcomes. For the first task we designed 857 case studies in collaboration with domain experts to assess real-world scenarios in sleep and fitness. Through comprehensive evaluation of domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not statistically different from expert performance in fitness and, while experts remain superior for sleep, fine-tuning PH-LLM provided significant improvements in using relevant domain knowledge and personalizing information for sleep insights. We evaluated PH-LLM domain knowledge using multiple choice sleep medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on fitness, exceeding average scores from a sample of human experts. Finally, we trained PH-LLM to predict self-reported sleep quality outcomes from textual and multimodal encoding representations of wearable data, and demonstrate that multimodal encoding is required to match performance of specialized discriminative models. Although further development and evaluation are necessary in the safety-critical personal health domain, these results demonstrate both the broad knowledge and capabilities of Gemini models and the benefit of contextualizing physiological data for personal health applications as done with PH-LLM.
PDF240December 8, 2024