ChatPaper.aiChatPaper

대형 언어 모델을 활용한 단백질 디자인: 향상 및 비교 분석

Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

August 12, 2024
저자: Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori
cs.AI

초록

사전 훈련된 LLM은 요약 및 엔티티 인식과 같은 다양한 전통적인 자연어 처리 (NLP) 작업에서 상당한 능력을 보여주었습니다. 본 논문에서는 LLM의 고품질 단백질 서열 생성에 대한 응용을 탐구합니다. 구체적으로, Mistral-7B1, Llama-2-7B2, Llama-3-8B3, 그리고 gemma-7B4를 포함한 일련의 사전 훈련된 LLM을 채택하여 유효한 단백질 서열을 생성합니다. 이러한 모델은 모두 공개적으로 이용 가능합니다. 이 분야의 이전 연구와 달리, 우리의 접근 방식은 42,000개의 서로 다른 인간 단백질 서열로 구성된 비교적 작은 데이터셋을 활용합니다. 이러한 모델들을 단백질 관련 데이터 처리를 위해 재학습하여 생물학적으로 타당한 단백질 구조를 생성합니다. 우리의 연구 결과는 적은 데이터에도 불구하고, 적응된 모델들이 수백만 개의 단백질 서열로 훈련된 ProGen 변형, ProtGPT2, 그리고 ProLLaMA와 같은 확립된 단백질 중심 모델과 유사한 효율성을 보여준다는 것을 입증합니다. 우리 모델의 성능을 검증하고 정량화하기 위해 pLDDT, RMSD, TM-score, 그리고 REU와 같은 표준 메트릭을 활용한 비교 분석을 수행합니다. 더불어, 우리는 네 모델의 훈련된 버전을 공개적으로 이용 가능하게 하여 계산 생물학 분야에서의 더 큰 투명성과 협력을 촉진하기로 했습니다.
English
Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and gemma-7B4, to produce valid protein sequences. All of these models are publicly available.5 Unlike previous work in this field, our approach utilizes a relatively small dataset comprising 42,000 distinct human protein sequences. We retrain these models to process protein-related data, ensuring the generation of biologically feasible protein structures. Our findings demonstrate that even with limited data, the adapted models exhibit efficiency comparable to established protein-focused models such as ProGen varieties, ProtGPT2, and ProLLaMA, which were trained on millions of protein sequences. To validate and quantify the performance of our models, we conduct comparative analyses employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore, we commit to making the trained versions of all four models publicly available, fostering greater transparency and collaboration in the field of computational biology.

Summary

AI-Generated Summary

PDF81November 28, 2024