Tx-LLM: Een Taalmodel op Schaal voor Therapeutica
Tx-LLM: A Large Language Model for Therapeutics
June 10, 2024
Auteurs: Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi
cs.AI
Samenvatting
Het ontwikkelen van therapeutica is een langdurig en kostbaar proces dat het voldoen aan veel verschillende criteria vereist, en AI-modellen die dit proces kunnen versnellen, zouden van onschatbare waarde zijn. De meeste huidige AI-benaderingen richten zich echter slechts op een nauw gedefinieerde set taken, vaak beperkt tot een specifiek domein. Om deze kloof te overbruggen, introduceren we Tx-LLM, een generalistisch groot taalmodel (LLM) dat is afgestemd op PaLM-2 en kennis bevat over diverse therapeutische modaliteiten. Tx-LLM is getraind met een verzameling van 709 datasets die gericht zijn op 66 taken die verschillende fasen van de pijplijn voor geneesmiddelenontdekking omvatten. Met een enkele set gewichten verwerkt Tx-LLM tegelijkertijd een breed scala aan chemische of biologische entiteiten (kleine moleculen, eiwitten, nucleïnezuren, celijnen, ziekten) afgewisseld met vrije tekst, waardoor het een breed scala aan gerelateerde eigenschappen kan voorspellen, waarbij het competitief presteert met state-of-the-art (SOTA) op 43 van de 66 taken en SOTA overtreft op 22. Onder deze taken is Tx-LLM bijzonder krachtig en overtreft het gemiddeld de best-in-class prestaties voor taken die moleculaire SMILES-representaties combineren met tekst zoals celijnnamen of ziekte-namen, waarschijnlijk vanwege de context die tijdens de voorafgaande training is geleerd. We observeren bewijs van positieve overdracht tussen taken met diverse geneesmiddeltypen (bijvoorbeeld taken met kleine moleculen en taken met eiwitten), en we bestuderen de impact van modelgrootte, domeinafstemming en promptingstrategieën op de prestaties. We geloven dat Tx-LLM een belangrijke stap vertegenwoordigt naar LLMs die biochemische kennis coderen en een toekomstige rol zou kunnen hebben als een end-to-end tool in de pijplijn voor geneesmiddelenontdekking.
English
Developing therapeutics is a lengthy and expensive process that requires the
satisfaction of many different criteria, and AI models capable of expediting
the process would be invaluable. However, the majority of current AI approaches
address only a narrowly defined set of tasks, often circumscribed within a
particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large
language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about
diverse therapeutic modalities. Tx-LLM is trained using a collection of 709
datasets that target 66 tasks spanning various stages of the drug discovery
pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide
variety of chemical or biological entities(small molecules, proteins, nucleic
acids, cell lines, diseases) interleaved with free-text, allowing it to predict
a broad range of associated properties, achieving competitive with
state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on
22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class
performance on average for tasks combining molecular SMILES representations
with text such as cell line names or disease names, likely due to context
learned during pretraining. We observe evidence of positive transfer between
tasks with diverse drug types (e.g.,tasks involving small molecules and tasks
involving proteins), and we study the impact of model size, domain finetuning,
and prompting strategies on performance. We believe Tx-LLM represents an
important step towards LLMs encoding biochemical knowledge and could have a
future role as an end-to-end tool across the drug discovery development
pipeline.