Tx-LLM: Большая языковая модель для терапевтических целей
Tx-LLM: A Large Language Model for Therapeutics
June 10, 2024
Авторы: Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi
cs.AI
Аннотация
Разработка терапевтических препаратов - это длительный и дорогостоящий процесс, требующий удовлетворения множества различных критериев, и модели искусственного интеллекта, способные ускорить этот процесс, были бы бесценны. Однако большинство текущих подходов в области искусственного интеллекта решают лишь узко определенный набор задач, часто ограниченный в рамках конкретной области. Для устранения этого разрыва мы представляем Tx-LLM, обобщенную крупную языковую модель (LLM), донастроенную из PaLM-2, которая кодирует знания о различных терапевтических методах. Tx-LLM обучается с использованием коллекции из 709 наборов данных, охватывающих 66 задач, охватывающих различные этапы процесса открытия лекарств. Используя один набор весов, Tx-LLM одновременно обрабатывает широкий спектр химических или биологических сущностей (малые молекулы, белки, нуклеиновые кислоты, линии клеток, заболевания), чередуя их с свободным текстом, что позволяет ему предсказывать широкий спектр связанных свойств, достигая конкурентоспособной производительности по сравнению с передовыми достижениями (SOTA) в 43 из 66 задач и превосходя SOTA в 22 из них. Среди них Tx-LLM особенно мощен и превосходит лучшие показатели в среднем для задач, объединяющих молекулярные представления SMILES с текстом, такими как названия линий клеток или заболеваний, вероятно, благодаря контексту, изученному во время предварительного обучения. Мы наблюдаем признаки положительного переноса между задачами с различными типами лекарств (например, задачи, связанные с малыми молекулами, и задачи, связанные с белками), и изучаем влияние размера модели, донастройки области и стратегий подсказки на производительность. Мы считаем, что Tx-LLM представляет собой важный шаг к LLM, кодирующим биохимические знания, и может сыграть будущую роль как инструмент от начала и до конца в процессе разработки открытия лекарств.
English
Developing therapeutics is a lengthy and expensive process that requires the
satisfaction of many different criteria, and AI models capable of expediting
the process would be invaluable. However, the majority of current AI approaches
address only a narrowly defined set of tasks, often circumscribed within a
particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large
language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about
diverse therapeutic modalities. Tx-LLM is trained using a collection of 709
datasets that target 66 tasks spanning various stages of the drug discovery
pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide
variety of chemical or biological entities(small molecules, proteins, nucleic
acids, cell lines, diseases) interleaved with free-text, allowing it to predict
a broad range of associated properties, achieving competitive with
state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on
22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class
performance on average for tasks combining molecular SMILES representations
with text such as cell line names or disease names, likely due to context
learned during pretraining. We observe evidence of positive transfer between
tasks with diverse drug types (e.g.,tasks involving small molecules and tasks
involving proteins), and we study the impact of model size, domain finetuning,
and prompting strategies on performance. We believe Tx-LLM represents an
important step towards LLMs encoding biochemical knowledge and could have a
future role as an end-to-end tool across the drug discovery development
pipeline.Summary
AI-Generated Summary