Projetar Proteínas Usando Modelos de Linguagem Grandes: Aprimoramentos e Análises Comparativas
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses
August 12, 2024
Autores: Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori
cs.AI
Resumo
Os LLMs pré-treinados têm demonstrado capacidades substanciais em uma variedade de tarefas convencionais de processamento de linguagem natural (PLN), como sumarização e reconhecimento de entidades. Neste artigo, exploramos a aplicação dos LLMs na geração de sequências de proteínas de alta qualidade. Especificamente, adotamos um conjunto de LLMs pré-treinados, incluindo Mistral-7B1, Llama-2-7B2, Llama-3-8B3 e gemma-7B4, para produzir sequências de proteínas válidas. Todos esses modelos estão disponíveis publicamente. Ao contrário de trabalhos anteriores nesse campo, nossa abordagem utiliza um conjunto de dados relativamente pequeno composto por 42.000 sequências de proteínas humanas distintas. Retreinamos esses modelos para processar dados relacionados a proteínas, garantindo a geração de estruturas de proteínas biologicamente viáveis. Nossos resultados demonstram que mesmo com dados limitados, os modelos adaptados exibem eficiência comparável a modelos estabelecidos focados em proteínas, como as variedades ProGen, ProtGPT2 e ProLLaMA, que foram treinados em milhões de sequências de proteínas. Para validar e quantificar o desempenho de nossos modelos, realizamos análises comparativas empregando métricas padrão como pLDDT, RMSD, TM-score e REU. Além disso, comprometemo-nos a disponibilizar publicamente as versões treinadas de todos os quatro modelos, promovendo maior transparência e colaboração no campo da biologia computacional.
English
Pre-trained LLMs have demonstrated substantial capabilities across a range of
conventional natural language processing (NLP) tasks, such as summarization and
entity recognition. In this paper, we explore the application of LLMs in the
generation of high-quality protein sequences. Specifically, we adopt a suite of
pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and
gemma-7B4, to produce valid protein sequences. All of these models are publicly
available.5 Unlike previous work in this field, our approach utilizes a
relatively small dataset comprising 42,000 distinct human protein sequences. We
retrain these models to process protein-related data, ensuring the generation
of biologically feasible protein structures. Our findings demonstrate that even
with limited data, the adapted models exhibit efficiency comparable to
established protein-focused models such as ProGen varieties, ProtGPT2, and
ProLLaMA, which were trained on millions of protein sequences. To validate and
quantify the performance of our models, we conduct comparative analyses
employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore,
we commit to making the trained versions of all four models publicly available,
fostering greater transparency and collaboration in the field of computational
biology.Summary
AI-Generated Summary