Tx-LLM: Un Modello Linguistico di Grandi Dimensioni per la Terapeutica
Tx-LLM: A Large Language Model for Therapeutics
June 10, 2024
Autori: Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi
cs.AI
Abstract
Lo sviluppo di terapie è un processo lungo e costoso che richiede il soddisfacimento di molti criteri diversi, e i modelli di IA in grado di accelerare il processo sarebbero di inestimabile valore. Tuttavia, la maggior parte degli approcci attuali di IA affronta solo un insieme ristretto di compiti, spesso circoscritti a un dominio specifico. Per colmare questa lacuna, presentiamo Tx-LLM, un modello linguistico di grandi dimensioni (LLM) generalista messo a punto a partire da PaLM-2, che codifica conoscenze su diverse modalità terapeutiche. Tx-LLM è addestrato utilizzando una raccolta di 709 dataset che mirano a 66 compiti che coprono varie fasi della pipeline di scoperta di farmaci. Utilizzando un unico set di pesi, Tx-LLM elabora simultaneamente una vasta gamma di entità chimiche o biologiche (piccole molecole, proteine, acidi nucleici, linee cellulari, malattie) intervallate da testo libero, consentendogli di prevedere un'ampia gamma di proprietà associate, raggiungendo prestazioni competitive con lo stato dell'arte (SOTA) in 43 su 66 compiti e superando SOTA in 22. Tra questi, Tx-LLM è particolarmente potente e supera in media le prestazioni migliori per compiti che combinano rappresentazioni molecolari SMILES con testo come nomi di linee cellulari o nomi di malattie, probabilmente grazie al contesto appreso durante il pre-addestramento. Osserviamo prove di trasferimento positivo tra compiti con diversi tipi di farmaci (ad esempio, compiti che coinvolgono piccole molecole e compiti che coinvolgono proteine), e studiamo l'impatto delle dimensioni del modello, dell'ottimizzazione del dominio e delle strategie di prompting sulle prestazioni. Crediamo che Tx-LLM rappresenti un passo importante verso LLM che codificano conoscenze biochimiche e potrebbe avere un ruolo futuro come strumento end-to-end lungo la pipeline di sviluppo della scoperta di farmaci.
English
Developing therapeutics is a lengthy and expensive process that requires the
satisfaction of many different criteria, and AI models capable of expediting
the process would be invaluable. However, the majority of current AI approaches
address only a narrowly defined set of tasks, often circumscribed within a
particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large
language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about
diverse therapeutic modalities. Tx-LLM is trained using a collection of 709
datasets that target 66 tasks spanning various stages of the drug discovery
pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide
variety of chemical or biological entities(small molecules, proteins, nucleic
acids, cell lines, diseases) interleaved with free-text, allowing it to predict
a broad range of associated properties, achieving competitive with
state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on
22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class
performance on average for tasks combining molecular SMILES representations
with text such as cell line names or disease names, likely due to context
learned during pretraining. We observe evidence of positive transfer between
tasks with diverse drug types (e.g.,tasks involving small molecules and tasks
involving proteins), and we study the impact of model size, domain finetuning,
and prompting strategies on performance. We believe Tx-LLM represents an
important step towards LLMs encoding biochemical knowledge and could have a
future role as an end-to-end tool across the drug discovery development
pipeline.