분자 발견에서의 언어 모델
Language models in molecular discovery
September 28, 2023
저자: Nikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born
cs.AI
초록
언어 모델, 특히 트랜스포머 기반 아키텍처의 성공은 다른 분야로 확장되어 소분자, 단백질 또는 고분자를 다루는 "과학적 언어 모델"의 등장을 촉진했습니다. 화학 분야에서 언어 모델은 초기 단계의 신약 발견에서의 유망한 최근 연구 결과들로 증명되듯, 분자 발견 사이클을 가속화하는 데 기여하고 있습니다. 본 논문에서는 분자 발견에서의 언어 모델의 역할을 검토하며, 이들이 신약 설계, 물성 예측 및 반응 화학에서 보이는 강점을 강조합니다. 또한, 과학적 언어 모델링 분야에의 진입 장벽을 낮추는 데 기여한 가치 있는 오픈소스 소프트웨어 자산들을 소개합니다. 마지막으로, 챗봇 인터페이스와 계산 화학 도구에의 접근을 결합한 미래의 분자 설계에 대한 비전을 제시합니다. 본 논문은 언어 모델이 어떻게 화학적 발견을 가속화하는 데 사용될 수 있고, 앞으로 사용될 것인지 이해하고자 하는 연구자, 화학자, 그리고 AI 애호가들에게 유용한 자료로 활용될 것입니다.
English
The success of language models, especially transformer-based architectures,
has trickled into other domains giving rise to "scientific language models"
that operate on small molecules, proteins or polymers. In chemistry, language
models contribute to accelerating the molecule discovery cycle as evidenced by
promising recent findings in early-stage drug discovery. Here, we review the
role of language models in molecular discovery, underlining their strength in
de novo drug design, property prediction and reaction chemistry. We highlight
valuable open-source software assets thus lowering the entry barrier to the
field of scientific language modeling. Last, we sketch a vision for future
molecular design that combines a chatbot interface with access to computational
chemistry tools. Our contribution serves as a valuable resource for
researchers, chemists, and AI enthusiasts interested in understanding how
language models can and will be used to accelerate chemical discovery.