分子発見における言語モデル
Language models in molecular discovery
September 28, 2023
著者: Nikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born
cs.AI
要旨
言語モデル、特にTransformerベースのアーキテクチャの成功は、他の分野にも波及し、小分子、タンパク質、ポリマーを扱う「科学的言語モデル」の台頭をもたらしました。化学分野では、言語モデルが分子発見サイクルの加速に貢献しており、創薬の初期段階における有望な最近の研究成果がその証左となっています。本稿では、分子発見における言語モデルの役割を概観し、デノボ創薬、物性予測、反応化学におけるその強みを強調します。また、科学的言語モデリングの分野への参入障壁を下げる貴重なオープンソースソフトウェア資産を紹介します。最後に、チャットボットインターフェースと計算化学ツールへのアクセスを組み合わせた未来の分子設計のビジョンを描きます。本稿は、言語モデルがどのように化学発見を加速するか、また今後どのように活用されるかを理解したい研究者、化学者、AI愛好家にとって貴重なリソースとなるでしょう。
English
The success of language models, especially transformer-based architectures,
has trickled into other domains giving rise to "scientific language models"
that operate on small molecules, proteins or polymers. In chemistry, language
models contribute to accelerating the molecule discovery cycle as evidenced by
promising recent findings in early-stage drug discovery. Here, we review the
role of language models in molecular discovery, underlining their strength in
de novo drug design, property prediction and reaction chemistry. We highlight
valuable open-source software assets thus lowering the entry barrier to the
field of scientific language modeling. Last, we sketch a vision for future
molecular design that combines a chatbot interface with access to computational
chemistry tools. Our contribution serves as a valuable resource for
researchers, chemists, and AI enthusiasts interested in understanding how
language models can and will be used to accelerate chemical discovery.