Conception de protéines à l'aide de modèles de langage à grande échelle : Améliorations et analyses comparatives
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses
August 12, 2024
Auteurs: Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori
cs.AI
Résumé
Les modèles de langage pré-entraînés (LLM) ont démontré des capacités substantielles dans une gamme de tâches conventionnelles de traitement du langage naturel (NLP), telles que la synthèse et la reconnaissance d'entités. Dans cet article, nous explorons l'application des LLM à la génération de séquences protéiques de haute qualité. Plus précisément, nous adoptons une série de LLM pré-entraînés, incluant Mistral-7B1, Llama-2-7B2, Llama-3-8B3 et gemma-7B4, pour produire des séquences protéiques valides. Tous ces modèles sont accessibles au public. Contrairement aux travaux précédents dans ce domaine, notre approche utilise un ensemble de données relativement petit comprenant 42 000 séquences protéiques humaines distinctes. Nous réentraînons ces modèles pour traiter des données liées aux protéines, garantissant la génération de structures protéiques biologiquement réalisables. Nos résultats montrent que même avec des données limitées, les modèles adaptés présentent une efficacité comparable à celle des modèles établis axés sur les protéines, tels que les variantes de ProGen, ProtGPT2 et ProLLaMA, qui ont été entraînés sur des millions de séquences protéiques. Pour valider et quantifier la performance de nos modèles, nous menons des analyses comparatives en utilisant des métriques standard telles que pLDDT, RMSD, TM-score et REU. De plus, nous nous engageons à rendre publiques les versions entraînées des quatre modèles, favorisant ainsi une plus grande transparence et collaboration dans le domaine de la biologie computationnelle.
English
Pre-trained LLMs have demonstrated substantial capabilities across a range of
conventional natural language processing (NLP) tasks, such as summarization and
entity recognition. In this paper, we explore the application of LLMs in the
generation of high-quality protein sequences. Specifically, we adopt a suite of
pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and
gemma-7B4, to produce valid protein sequences. All of these models are publicly
available.5 Unlike previous work in this field, our approach utilizes a
relatively small dataset comprising 42,000 distinct human protein sequences. We
retrain these models to process protein-related data, ensuring the generation
of biologically feasible protein structures. Our findings demonstrate that even
with limited data, the adapted models exhibit efficiency comparable to
established protein-focused models such as ProGen varieties, ProtGPT2, and
ProLLaMA, which were trained on millions of protein sequences. To validate and
quantify the performance of our models, we conduct comparative analyses
employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore,
we commit to making the trained versions of all four models publicly available,
fostering greater transparency and collaboration in the field of computational
biology.Summary
AI-Generated Summary