ChatPaper.aiChatPaper

Tx-LLM: Um Modelo de Linguagem de Grande Escala para Terapêutica

Tx-LLM: A Large Language Model for Therapeutics

June 10, 2024
Autores: Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi
cs.AI

Resumo

O desenvolvimento de terapêuticos é um processo longo e caro que exige a satisfação de muitos critérios diferentes, e modelos de IA capazes de acelerar esse processo seriam de valor inestimável. No entanto, a maioria das abordagens atuais de IA aborda apenas um conjunto estreitamente definido de tarefas, frequentemente circunscritas a um domínio específico. Para preencher essa lacuna, apresentamos o Tx-LLM, um modelo de linguagem de grande escala (LLM) generalista ajustado a partir do PaLM-2, que codifica conhecimento sobre diversas modalidades terapêuticas. O Tx-LLM é treinado usando uma coleção de 709 conjuntos de dados que abrangem 66 tarefas em várias etapas do pipeline de descoberta de medicamentos. Usando um único conjunto de pesos, o Tx-LLM processa simultaneamente uma ampla variedade de entidades químicas ou biológicas (pequenas moléculas, proteínas, ácidos nucleicos, linhagens celulares, doenças) intercaladas com texto livre, permitindo prever uma ampla gama de propriedades associadas, alcançando desempenho competitivo com o estado da arte (SOTA) em 43 das 66 tarefas e superando o SOTA em 22. Entre essas, o Tx-LLM é particularmente poderoso e supera o desempenho de classe média em tarefas que combinam representações moleculares SMILES com texto, como nomes de linhagens celulares ou doenças, provavelmente devido ao contexto aprendido durante o pré-treinamento. Observamos evidências de transferência positiva entre tarefas com diversos tipos de medicamentos (por exemplo, tarefas envolvendo pequenas moléculas e tarefas envolvendo proteínas), e estudamos o impacto do tamanho do modelo, do ajuste fino de domínio e das estratégias de prompt no desempenho. Acreditamos que o Tx-LLM representa um passo importante em direção a LLMs que codificam conhecimento bioquímico e poderia ter um papel futuro como uma ferramenta de ponta a ponta em todo o pipeline de desenvolvimento de descoberta de medicamentos.
English
Developing therapeutics is a lengthy and expensive process that requires the satisfaction of many different criteria, and AI models capable of expediting the process would be invaluable. However, the majority of current AI approaches address only a narrowly defined set of tasks, often circumscribed within a particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about diverse therapeutic modalities. Tx-LLM is trained using a collection of 709 datasets that target 66 tasks spanning various stages of the drug discovery pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide variety of chemical or biological entities(small molecules, proteins, nucleic acids, cell lines, diseases) interleaved with free-text, allowing it to predict a broad range of associated properties, achieving competitive with state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on 22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class performance on average for tasks combining molecular SMILES representations with text such as cell line names or disease names, likely due to context learned during pretraining. We observe evidence of positive transfer between tasks with diverse drug types (e.g.,tasks involving small molecules and tasks involving proteins), and we study the impact of model size, domain finetuning, and prompting strategies on performance. We believe Tx-LLM represents an important step towards LLMs encoding biochemical knowledge and could have a future role as an end-to-end tool across the drug discovery development pipeline.
PDF210December 8, 2024