Diseño de Proteínas Utilizando Modelos de Lenguaje Grandes: Mejoras y Análisis Comparativos
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses
August 12, 2024
Autores: Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori
cs.AI
Resumen
Los LLM pre-entrenados han demostrado capacidades sustanciales en una variedad de tareas convencionales de procesamiento del lenguaje natural (NLP), como resumen y reconocimiento de entidades. En este artículo, exploramos la aplicación de LLM en la generación de secuencias de proteínas de alta calidad. Específicamente, adoptamos un conjunto de LLM pre-entrenados, incluyendo Mistral-7B1, Llama-2-7B2, Llama-3-8B3 y gemma-7B4, para producir secuencias de proteínas válidas. Todos estos modelos están disponibles públicamente. A diferencia de trabajos anteriores en este campo, nuestro enfoque utiliza un conjunto de datos relativamente pequeño que consta de 42,000 secuencias de proteínas humanas distintas. Retraining estos modelos para procesar datos relacionados con proteínas, garantizando la generación de estructuras de proteínas biológicamente factibles. Nuestros hallazgos demuestran que incluso con datos limitados, los modelos adaptados muestran una eficiencia comparable a modelos establecidos centrados en proteínas como las variedades de ProGen, ProtGPT2 y ProLLaMA, que fueron entrenados en millones de secuencias de proteínas. Para validar y cuantificar el rendimiento de nuestros modelos, realizamos análisis comparativos utilizando métricas estándar como pLDDT, RMSD, TM-score y REU. Además, nos comprometemos a hacer públicamente disponibles las versiones entrenadas de los cuatro modelos, fomentando una mayor transparencia y colaboración en el campo de la biología computacional.
English
Pre-trained LLMs have demonstrated substantial capabilities across a range of
conventional natural language processing (NLP) tasks, such as summarization and
entity recognition. In this paper, we explore the application of LLMs in the
generation of high-quality protein sequences. Specifically, we adopt a suite of
pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and
gemma-7B4, to produce valid protein sequences. All of these models are publicly
available.5 Unlike previous work in this field, our approach utilizes a
relatively small dataset comprising 42,000 distinct human protein sequences. We
retrain these models to process protein-related data, ensuring the generation
of biologically feasible protein structures. Our findings demonstrate that even
with limited data, the adapted models exhibit efficiency comparable to
established protein-focused models such as ProGen varieties, ProtGPT2, and
ProLLaMA, which were trained on millions of protein sequences. To validate and
quantify the performance of our models, we conduct comparative analyses
employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore,
we commit to making the trained versions of all four models publicly available,
fostering greater transparency and collaboration in the field of computational
biology.Summary
AI-Generated Summary