미세 조정된 소형 언어 모델을 활용한 리간드-단백질 상호작용 친화도의 정확한 예측
Accurate Prediction of Ligand-Protein Interaction Affinities with Fine-Tuned Small Language Models
June 27, 2024
저자: Ben Fauber
cs.AI
초록
우리는 인스트럭션 파인튜닝된 사전 학습된 소형 생성 언어 모델(SLMs)을 사용하여 리간드-단백질 상호작용(LPI), 즉 약물-표적 상호작용(DTI) 친화도를 정확하게 예측하는 방법을 기술한다. 제로샷 설정에서 표본 외 데이터에 대한 리간드-단백질 상호작용과 관련된 다양한 친화도 값을 정확하게 예측하였다. 모델 입력으로는 리간드의 SMILES 문자열과 단백질의 아미노산 서열만이 사용되었다. 우리의 결과는 다양한 리간드-단백질 상호작용 친화도를 정확하게 예측하는 데 있어 기계 학습(ML) 및 자유 에너지 섭동(FEP+) 기반 방법들보다 뚜렷한 개선을 보여주며, 이를 통해 도전적인 치료 표적에 대한 신약 개발 캠페인을 더욱 가속화할 수 있을 것으로 기대된다.
English
We describe the accurate prediction of ligand-protein interaction (LPI)
affinities, also known as drug-target interactions (DTI), with instruction
fine-tuned pretrained generative small language models (SLMs). We achieved
accurate predictions for a range of affinity values associated with
ligand-protein interactions on out-of-sample data in a zero-shot setting. Only
the SMILES string of the ligand and the amino acid sequence of the protein were
used as the model inputs. Our results demonstrate a clear improvement over
machine learning (ML) and free-energy perturbation (FEP+) based methods in
accurately predicting a range of ligand-protein interaction affinities, which
can be leveraged to further accelerate drug discovery campaigns against
challenging therapeutic targets.Summary
AI-Generated Summary