Projetar Proteínas Usando Modelos de Linguagem Grandes: Aprimoramentos e Análises Comparativas

Resumo

Os LLMs pré-treinados têm demonstrado capacidades substanciais em uma variedade de tarefas convencionais de processamento de linguagem natural (PLN), como sumarização e reconhecimento de entidades. Neste artigo, exploramos a aplicação dos LLMs na geração de sequências de proteínas de alta qualidade. Especificamente, adotamos um conjunto de LLMs pré-treinados, incluindo Mistral-7B1, Llama-2-7B2, Llama-3-8B3 e gemma-7B4, para produzir sequências de proteínas válidas. Todos esses modelos estão disponíveis publicamente. Ao contrário de trabalhos anteriores nesse campo, nossa abordagem utiliza um conjunto de dados relativamente pequeno composto por 42.000 sequências de proteínas humanas distintas. Retreinamos esses modelos para processar dados relacionados a proteínas, garantindo a geração de estruturas de proteínas biologicamente viáveis. Nossos resultados demonstram que mesmo com dados limitados, os modelos adaptados exibem eficiência comparável a modelos estabelecidos focados em proteínas, como as variedades ProGen, ProtGPT2 e ProLLaMA, que foram treinados em milhões de sequências de proteínas. Para validar e quantificar o desempenho de nossos modelos, realizamos análises comparativas empregando métricas padrão como pLDDT, RMSD, TM-score e REU. Além disso, comprometemo-nos a disponibilizar publicamente as versões treinadas de todos os quatro modelos, promovendo maior transparência e colaboração no campo da biologia computacional.

English

Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and gemma-7B4, to produce valid protein sequences. All of these models are publicly available.5 Unlike previous work in this field, our approach utilizes a relatively small dataset comprising 42,000 distinct human protein sequences. We retrain these models to process protein-related data, ensuring the generation of biologically feasible protein structures. Our findings demonstrate that even with limited data, the adapted models exhibit efficiency comparable to established protein-focused models such as ProGen varieties, ProtGPT2, and ProLLaMA, which were trained on millions of protein sequences. To validate and quantify the performance of our models, we conduct comparative analyses employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore, we commit to making the trained versions of all four models publicly available, fostering greater transparency and collaboration in the field of computational biology.

Projetar Proteínas Usando Modelos de Linguagem Grandes: Aprimoramentos e Análises Comparativas

Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Resumo

Summary

Support

Support