ChatPaper.aiChatPaper

Conception de protéines à l'aide de modèles de langage à grande échelle : Améliorations et analyses comparatives

Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

August 12, 2024
Auteurs: Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori
cs.AI

Résumé

Les modèles de langage pré-entraînés (LLM) ont démontré des capacités substantielles dans une gamme de tâches conventionnelles de traitement du langage naturel (NLP), telles que la synthèse et la reconnaissance d'entités. Dans cet article, nous explorons l'application des LLM à la génération de séquences protéiques de haute qualité. Plus précisément, nous adoptons une série de LLM pré-entraînés, incluant Mistral-7B1, Llama-2-7B2, Llama-3-8B3 et gemma-7B4, pour produire des séquences protéiques valides. Tous ces modèles sont accessibles au public. Contrairement aux travaux précédents dans ce domaine, notre approche utilise un ensemble de données relativement petit comprenant 42 000 séquences protéiques humaines distinctes. Nous réentraînons ces modèles pour traiter des données liées aux protéines, garantissant la génération de structures protéiques biologiquement réalisables. Nos résultats montrent que même avec des données limitées, les modèles adaptés présentent une efficacité comparable à celle des modèles établis axés sur les protéines, tels que les variantes de ProGen, ProtGPT2 et ProLLaMA, qui ont été entraînés sur des millions de séquences protéiques. Pour valider et quantifier la performance de nos modèles, nous menons des analyses comparatives en utilisant des métriques standard telles que pLDDT, RMSD, TM-score et REU. De plus, nous nous engageons à rendre publiques les versions entraînées des quatre modèles, favorisant ainsi une plus grande transparence et collaboration dans le domaine de la biologie computationnelle.
English
Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and gemma-7B4, to produce valid protein sequences. All of these models are publicly available.5 Unlike previous work in this field, our approach utilizes a relatively small dataset comprising 42,000 distinct human protein sequences. We retrain these models to process protein-related data, ensuring the generation of biologically feasible protein structures. Our findings demonstrate that even with limited data, the adapted models exhibit efficiency comparable to established protein-focused models such as ProGen varieties, ProtGPT2, and ProLLaMA, which were trained on millions of protein sequences. To validate and quantify the performance of our models, we conduct comparative analyses employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore, we commit to making the trained versions of all four models publicly available, fostering greater transparency and collaboration in the field of computational biology.

Summary

AI-Generated Summary

PDF81November 28, 2024