Языковые модели в молекулярных открытиях
Language models in molecular discovery
September 28, 2023
Авторы: Nikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born
cs.AI
Аннотация
Успех языковых моделей, особенно архитектур на основе трансформаторов, распространился на другие области, что привело к появлению "научных языковых моделей", работающих с малыми молекулами, белками или полимерами. В химии языковые модели способствуют ускорению цикла открытия молекул, о чем свидетельствуют многообещающие недавние результаты в ранних этапах разработки лекарств. В данной статье мы рассматриваем роль языковых моделей в молекулярных открытиях, подчеркивая их сильные стороны в области de novo дизайна лекарств, предсказания свойств и химии реакций. Мы выделяем ценные открытые программные ресурсы, тем самым снижая порог входа в область научного языкового моделирования. Наконец, мы намечаем видение будущего молекулярного дизайна, сочетающего интерфейс чат-бота с доступом к инструментам вычислительной химии. Наш вклад служит ценным ресурсом для исследователей, химиков и энтузиастов ИИ, интересующихся тем, как языковые модели могут и будут использоваться для ускорения химических открытий.
English
The success of language models, especially transformer-based architectures,
has trickled into other domains giving rise to "scientific language models"
that operate on small molecules, proteins or polymers. In chemistry, language
models contribute to accelerating the molecule discovery cycle as evidenced by
promising recent findings in early-stage drug discovery. Here, we review the
role of language models in molecular discovery, underlining their strength in
de novo drug design, property prediction and reaction chemistry. We highlight
valuable open-source software assets thus lowering the entry barrier to the
field of scientific language modeling. Last, we sketch a vision for future
molecular design that combines a chatbot interface with access to computational
chemistry tools. Our contribution serves as a valuable resource for
researchers, chemists, and AI enthusiasts interested in understanding how
language models can and will be used to accelerate chemical discovery.