Conception de protéines à l'aide de modèles de langage à grande échelle : Améliorations et analyses comparatives

papers.abstract

Les modèles de langage pré-entraînés (LLM) ont démontré des capacités substantielles dans une gamme de tâches conventionnelles de traitement du langage naturel (NLP), telles que la synthèse et la reconnaissance d'entités. Dans cet article, nous explorons l'application des LLM à la génération de séquences protéiques de haute qualité. Plus précisément, nous adoptons une série de LLM pré-entraînés, incluant Mistral-7B1, Llama-2-7B2, Llama-3-8B3 et gemma-7B4, pour produire des séquences protéiques valides. Tous ces modèles sont accessibles au public. Contrairement aux travaux précédents dans ce domaine, notre approche utilise un ensemble de données relativement petit comprenant 42 000 séquences protéiques humaines distinctes. Nous réentraînons ces modèles pour traiter des données liées aux protéines, garantissant la génération de structures protéiques biologiquement réalisables. Nos résultats montrent que même avec des données limitées, les modèles adaptés présentent une efficacité comparable à celle des modèles établis axés sur les protéines, tels que les variantes de ProGen, ProtGPT2 et ProLLaMA, qui ont été entraînés sur des millions de séquences protéiques. Pour valider et quantifier la performance de nos modèles, nous menons des analyses comparatives en utilisant des métriques standard telles que pLDDT, RMSD, TM-score et REU. De plus, nous nous engageons à rendre publiques les versions entraînées des quatre modèles, favorisant ainsi une plus grande transparence et collaboration dans le domaine de la biologie computationnelle.

English

Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and gemma-7B4, to produce valid protein sequences. All of these models are publicly available.5 Unlike previous work in this field, our approach utilizes a relatively small dataset comprising 42,000 distinct human protein sequences. We retrain these models to process protein-related data, ensuring the generation of biologically feasible protein structures. Our findings demonstrate that even with limited data, the adapted models exhibit efficiency comparable to established protein-focused models such as ProGen varieties, ProtGPT2, and ProLLaMA, which were trained on millions of protein sequences. To validate and quantify the performance of our models, we conduct comparative analyses employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore, we commit to making the trained versions of all four models publicly available, fostering greater transparency and collaboration in the field of computational biology.

Conception de protéines à l'aide de modèles de langage à grande échelle : Améliorations et analyses comparatives

Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

papers.abstract

Support