Tx-LLM: Un Modello Linguistico di Grandi Dimensioni per la Terapeutica

Abstract

Lo sviluppo di terapie è un processo lungo e costoso che richiede il soddisfacimento di molti criteri diversi, e i modelli di IA in grado di accelerare il processo sarebbero di inestimabile valore. Tuttavia, la maggior parte degli approcci attuali di IA affronta solo un insieme ristretto di compiti, spesso circoscritti a un dominio specifico. Per colmare questa lacuna, presentiamo Tx-LLM, un modello linguistico di grandi dimensioni (LLM) generalista messo a punto a partire da PaLM-2, che codifica conoscenze su diverse modalità terapeutiche. Tx-LLM è addestrato utilizzando una raccolta di 709 dataset che mirano a 66 compiti che coprono varie fasi della pipeline di scoperta di farmaci. Utilizzando un unico set di pesi, Tx-LLM elabora simultaneamente una vasta gamma di entità chimiche o biologiche (piccole molecole, proteine, acidi nucleici, linee cellulari, malattie) intervallate da testo libero, consentendogli di prevedere un'ampia gamma di proprietà associate, raggiungendo prestazioni competitive con lo stato dell'arte (SOTA) in 43 su 66 compiti e superando SOTA in 22. Tra questi, Tx-LLM è particolarmente potente e supera in media le prestazioni migliori per compiti che combinano rappresentazioni molecolari SMILES con testo come nomi di linee cellulari o nomi di malattie, probabilmente grazie al contesto appreso durante il pre-addestramento. Osserviamo prove di trasferimento positivo tra compiti con diversi tipi di farmaci (ad esempio, compiti che coinvolgono piccole molecole e compiti che coinvolgono proteine), e studiamo l'impatto delle dimensioni del modello, dell'ottimizzazione del dominio e delle strategie di prompting sulle prestazioni. Crediamo che Tx-LLM rappresenti un passo importante verso LLM che codificano conoscenze biochimiche e potrebbe avere un ruolo futuro come strumento end-to-end lungo la pipeline di sviluppo della scoperta di farmaci.

English

Developing therapeutics is a lengthy and expensive process that requires the satisfaction of many different criteria, and AI models capable of expediting the process would be invaluable. However, the majority of current AI approaches address only a narrowly defined set of tasks, often circumscribed within a particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about diverse therapeutic modalities. Tx-LLM is trained using a collection of 709 datasets that target 66 tasks spanning various stages of the drug discovery pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide variety of chemical or biological entities(small molecules, proteins, nucleic acids, cell lines, diseases) interleaved with free-text, allowing it to predict a broad range of associated properties, achieving competitive with state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on 22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class performance on average for tasks combining molecular SMILES representations with text such as cell line names or disease names, likely due to context learned during pretraining. We observe evidence of positive transfer between tasks with diverse drug types (e.g.,tasks involving small molecules and tasks involving proteins), and we study the impact of model size, domain finetuning, and prompting strategies on performance. We believe Tx-LLM represents an important step towards LLMs encoding biochemical knowledge and could have a future role as an end-to-end tool across the drug discovery development pipeline.

Tx-LLM: Un Modello Linguistico di Grandi Dimensioni per la Terapeutica

Tx-LLM: A Large Language Model for Therapeutics

Abstract

Support