ChatPaper.aiChatPaper

Tx-LLM: Ein großes Sprachmodell für Therapeutika

Tx-LLM: A Large Language Model for Therapeutics

June 10, 2024
Autoren: Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi
cs.AI

Zusammenfassung

Die Entwicklung von Therapeutika ist ein langwieriger und kostspieliger Prozess, der die Erfüllung vieler verschiedener Kriterien erfordert, und KI-Modelle, die in der Lage sind, diesen Prozess zu beschleunigen, wären von unschätzbarem Wert. Allerdings befassen sich die meisten aktuellen KI-Ansätze nur mit einem eng definierten Satz von Aufgaben, die oft innerhalb eines bestimmten Bereichs begrenzt sind. Um diese Lücke zu überbrücken, stellen wir Tx-LLM vor, ein allgemeines großes Sprachmodell (LLM), das aus PaLM-2 feinabgestimmt wurde und Wissen über verschiedene therapeutische Modalitäten codiert. Tx-LLM wird mit einer Sammlung von 709 Datensätzen trainiert, die 66 Aufgaben umfassen, die verschiedene Stadien des Wirkstoffentdeckungsprozesses abdecken. Mit einem einzigen Satz von Gewichten verarbeitet Tx-LLM gleichzeitig eine Vielzahl von chemischen oder biologischen Entitäten (kleine Moleküle, Proteine, Nukleinsäuren, Zelllinien, Krankheiten), die mit Freitext durchsetzt sind, und kann so eine breite Palette von zugehörigen Eigenschaften vorhersagen. Dabei erreicht es eine wettbewerbsfähige Leistung bei 43 von 66 Aufgaben und übertrifft die SOTA bei 22 Aufgaben. Insbesondere bei Aufgaben, die molekulare SMILES-Repräsentationen mit Text wie Zellliniennamen oder Krankheitsnamen kombinieren, ist Tx-LLM besonders leistungsstark und übertrifft im Durchschnitt die Bestleistung. Wir beobachten Hinweise auf positive Übertragung zwischen Aufgaben mit verschiedenen Arten von Arzneimitteln (z. B. Aufgaben mit kleinen Molekülen und Aufgaben mit Proteinen) und untersuchen den Einfluss von Modellgröße, Feinabstimmung im Bereich und Aufforderungsstrategien auf die Leistung. Wir glauben, dass Tx-LLM einen wichtigen Schritt in Richtung LLMs darstellt, die biochemisches Wissen codieren, und in Zukunft eine Rolle als End-to-End-Tool im gesamten Wirkstoffentwicklungsprozess spielen könnte.
English
Developing therapeutics is a lengthy and expensive process that requires the satisfaction of many different criteria, and AI models capable of expediting the process would be invaluable. However, the majority of current AI approaches address only a narrowly defined set of tasks, often circumscribed within a particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about diverse therapeutic modalities. Tx-LLM is trained using a collection of 709 datasets that target 66 tasks spanning various stages of the drug discovery pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide variety of chemical or biological entities(small molecules, proteins, nucleic acids, cell lines, diseases) interleaved with free-text, allowing it to predict a broad range of associated properties, achieving competitive with state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on 22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class performance on average for tasks combining molecular SMILES representations with text such as cell line names or disease names, likely due to context learned during pretraining. We observe evidence of positive transfer between tasks with diverse drug types (e.g.,tasks involving small molecules and tasks involving proteins), and we study the impact of model size, domain finetuning, and prompting strategies on performance. We believe Tx-LLM represents an important step towards LLMs encoding biochemical knowledge and could have a future role as an end-to-end tool across the drug discovery development pipeline.

Summary

AI-Generated Summary

PDF200December 8, 2024