Tx-LLM: Un Modelo de Lenguaje de Gran Escala para Terapéutica
Tx-LLM: A Large Language Model for Therapeutics
June 10, 2024
Autores: Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi
cs.AI
Resumen
El desarrollo de terapéuticos es un proceso largo y costoso que requiere cumplir con muchos criterios diferentes, y los modelos de IA capaces de acelerar este proceso serían de un valor incalculable. Sin embargo, la mayoría de los enfoques actuales de IA abordan solo un conjunto estrechamente definido de tareas, a menudo circunscritas dentro de un dominio particular. Para cerrar esta brecha, presentamos Tx-LLM, un modelo de lenguaje grande (LLM) generalista ajustado a partir de PaLM-2 que codifica conocimiento sobre diversas modalidades terapéuticas. Tx-LLM se entrena utilizando una colección de 709 conjuntos de datos que abarcan 66 tareas en varias etapas del proceso de descubrimiento de fármacos. Utilizando un único conjunto de pesos, Tx-LLM procesa simultáneamente una amplia variedad de entidades químicas o biológicas (moléculas pequeñas, proteínas, ácidos nucleicos, líneas celulares, enfermedades) intercaladas con texto libre, lo que le permite predecir una amplia gama de propiedades asociadas, logrando un rendimiento competitivo con el estado del arte (SOTA) en 43 de las 66 tareas y superando el SOTA en 22. Entre estas, Tx-LLM es particularmente potente y supera el rendimiento de clase superior en promedio para tareas que combinan representaciones SMILES de moléculas con texto como nombres de líneas celulares o nombres de enfermedades, probablemente debido al contexto aprendido durante el preentrenamiento. Observamos evidencia de transferencia positiva entre tareas con diversos tipos de fármacos (por ejemplo, tareas que involucran moléculas pequeñas y tareas que involucran proteínas), y estudiamos el impacto del tamaño del modelo, el ajuste fino del dominio y las estrategias de indicación en el rendimiento. Creemos que Tx-LLM representa un paso importante hacia los LLM que codifican conocimiento bioquímico y podría tener un papel futuro como una herramienta integral en todo el proceso de desarrollo de descubrimiento de fármacos.
English
Developing therapeutics is a lengthy and expensive process that requires the
satisfaction of many different criteria, and AI models capable of expediting
the process would be invaluable. However, the majority of current AI approaches
address only a narrowly defined set of tasks, often circumscribed within a
particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large
language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about
diverse therapeutic modalities. Tx-LLM is trained using a collection of 709
datasets that target 66 tasks spanning various stages of the drug discovery
pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide
variety of chemical or biological entities(small molecules, proteins, nucleic
acids, cell lines, diseases) interleaved with free-text, allowing it to predict
a broad range of associated properties, achieving competitive with
state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on
22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class
performance on average for tasks combining molecular SMILES representations
with text such as cell line names or disease names, likely due to context
learned during pretraining. We observe evidence of positive transfer between
tasks with diverse drug types (e.g.,tasks involving small molecules and tasks
involving proteins), and we study the impact of model size, domain finetuning,
and prompting strategies on performance. We believe Tx-LLM represents an
important step towards LLMs encoding biochemical knowledge and could have a
future role as an end-to-end tool across the drug discovery development
pipeline.Summary
AI-Generated Summary