ChatPaper.aiChatPaper

Tx-LLM : Un modèle de langage à grande échelle pour la thérapeutique

Tx-LLM: A Large Language Model for Therapeutics

June 10, 2024
Auteurs: Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi
cs.AI

Résumé

Le développement de thérapeutiques est un processus long et coûteux qui nécessite la satisfaction de nombreux critères différents, et les modèles d'IA capables d'accélérer ce processus seraient d'une valeur inestimable. Cependant, la majorité des approches actuelles en IA ne traitent qu'un ensemble de tâches étroitement défini, souvent limité à un domaine particulier. Pour combler cette lacune, nous présentons Tx-LLM, un modèle de langage généraliste de grande taille (LLM) affiné à partir de PaLM-2, qui encode des connaissances sur diverses modalités thérapeutiques. Tx-LLM est entraîné à l'aide d'une collection de 709 ensembles de données ciblant 66 tâches couvrant les différentes étapes du pipeline de découverte de médicaments. Utilisant un seul ensemble de poids, Tx-LLM traite simultanément une grande variété d'entités chimiques ou biologiques (petites molécules, protéines, acides nucléiques, lignées cellulaires, maladies) entrelacées avec du texte libre, lui permettant de prédire un large éventail de propriétés associées, atteignant des performances compétitives avec l'état de l'art (SOTA) sur 43 des 66 tâches et dépassant SOTA sur 22. Parmi celles-ci, Tx-LLM est particulièrement puissant et dépasse en moyenne les performances de pointe pour les tâches combinant des représentations moléculaires SMILES avec du texte tel que des noms de lignées cellulaires ou de maladies, probablement en raison du contexte appris lors du pré-entraînement. Nous observons des preuves de transfert positif entre des tâches impliquant différents types de médicaments (par exemple, des tâches impliquant des petites molécules et des tâches impliquant des protéines), et nous étudions l'impact de la taille du modèle, de l'affinage de domaine et des stratégies d'invite sur les performances. Nous croyons que Tx-LLM représente une étape importante vers les LLM encodant des connaissances biochimiques et pourrait jouer un rôle futur en tant qu'outil de bout en bout dans le pipeline de développement de la découverte de médicaments.
English
Developing therapeutics is a lengthy and expensive process that requires the satisfaction of many different criteria, and AI models capable of expediting the process would be invaluable. However, the majority of current AI approaches address only a narrowly defined set of tasks, often circumscribed within a particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about diverse therapeutic modalities. Tx-LLM is trained using a collection of 709 datasets that target 66 tasks spanning various stages of the drug discovery pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide variety of chemical or biological entities(small molecules, proteins, nucleic acids, cell lines, diseases) interleaved with free-text, allowing it to predict a broad range of associated properties, achieving competitive with state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on 22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class performance on average for tasks combining molecular SMILES representations with text such as cell line names or disease names, likely due to context learned during pretraining. We observe evidence of positive transfer between tasks with diverse drug types (e.g.,tasks involving small molecules and tasks involving proteins), and we study the impact of model size, domain finetuning, and prompting strategies on performance. We believe Tx-LLM represents an important step towards LLMs encoding biochemical knowledge and could have a future role as an end-to-end tool across the drug discovery development pipeline.

Summary

AI-Generated Summary

PDF200December 8, 2024