Diseño de Proteínas Utilizando Modelos de Lenguaje Grandes: Mejoras y Análisis Comparativos

Resumen

Los LLM pre-entrenados han demostrado capacidades sustanciales en una variedad de tareas convencionales de procesamiento del lenguaje natural (NLP), como resumen y reconocimiento de entidades. En este artículo, exploramos la aplicación de LLM en la generación de secuencias de proteínas de alta calidad. Específicamente, adoptamos un conjunto de LLM pre-entrenados, incluyendo Mistral-7B1, Llama-2-7B2, Llama-3-8B3 y gemma-7B4, para producir secuencias de proteínas válidas. Todos estos modelos están disponibles públicamente. A diferencia de trabajos anteriores en este campo, nuestro enfoque utiliza un conjunto de datos relativamente pequeño que consta de 42,000 secuencias de proteínas humanas distintas. Retraining estos modelos para procesar datos relacionados con proteínas, garantizando la generación de estructuras de proteínas biológicamente factibles. Nuestros hallazgos demuestran que incluso con datos limitados, los modelos adaptados muestran una eficiencia comparable a modelos establecidos centrados en proteínas como las variedades de ProGen, ProtGPT2 y ProLLaMA, que fueron entrenados en millones de secuencias de proteínas. Para validar y cuantificar el rendimiento de nuestros modelos, realizamos análisis comparativos utilizando métricas estándar como pLDDT, RMSD, TM-score y REU. Además, nos comprometemos a hacer públicamente disponibles las versiones entrenadas de los cuatro modelos, fomentando una mayor transparencia y colaboración en el campo de la biología computacional.

English

Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and gemma-7B4, to produce valid protein sequences. All of these models are publicly available.5 Unlike previous work in this field, our approach utilizes a relatively small dataset comprising 42,000 distinct human protein sequences. We retrain these models to process protein-related data, ensuring the generation of biologically feasible protein structures. Our findings demonstrate that even with limited data, the adapted models exhibit efficiency comparable to established protein-focused models such as ProGen varieties, ProtGPT2, and ProLLaMA, which were trained on millions of protein sequences. To validate and quantify the performance of our models, we conduct comparative analyses employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore, we commit to making the trained versions of all four models publicly available, fostering greater transparency and collaboration in the field of computational biology.

Diseño de Proteínas Utilizando Modelos de Lenguaje Grandes: Mejoras y Análisis Comparativos

Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Resumen

Support