ChatPaper.aiChatPaper

Entwurf von Proteinen unter Verwendung großer Sprachmodelle: Verbesserungen und Vergleichsanalysen

Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

August 12, 2024
Autoren: Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori
cs.AI

Zusammenfassung

Vorab trainierte LLMs haben erhebliche Fähigkeiten in einer Vielzahl von konventionellen natürlichsprachlichen Verarbeitungsaufgaben (NLP) gezeigt, wie Zusammenfassung und Entitätenerkennung. In diesem Paper untersuchen wir die Anwendung von LLMs bei der Generierung hochwertiger Proteinsequenzen. Speziell verwenden wir eine Reihe von vorab trainierten LLMs, darunter Mistral-7B1, Llama-2-7B2, Llama-3-8B3 und Gemma-7B4, um gültige Proteinsequenzen zu erzeugen. Alle diese Modelle sind öffentlich verfügbar. Im Gegensatz zu früheren Arbeiten in diesem Bereich nutzt unser Ansatz einen relativ kleinen Datensatz, der 42.000 verschiedene menschliche Proteinsequenzen umfasst. Wir trainieren diese Modelle neu, um proteinbezogene Daten zu verarbeiten und so die Generierung biologisch machbarer Proteinstrukturen sicherzustellen. Unsere Ergebnisse zeigen, dass selbst mit begrenzten Daten die angepassten Modelle eine Effizienz aufweisen, die mit etablierten proteinfokussierten Modellen wie den ProGen-Varianten, ProtGPT2 und ProLLaMA vergleichbar ist, die auf Millionen von Proteinsequenzen trainiert wurden. Zur Validierung und Quantifizierung der Leistung unserer Modelle führen wir vergleichende Analysen durch, bei denen Standardmetriken wie pLDDT, RMSD, TM-Score und REU verwendet werden. Darüber hinaus verpflichten wir uns, die trainierten Versionen aller vier Modelle öffentlich zugänglich zu machen, um eine größere Transparenz und Zusammenarbeit im Bereich der computergestützten Biologie zu fördern.
English
Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and gemma-7B4, to produce valid protein sequences. All of these models are publicly available.5 Unlike previous work in this field, our approach utilizes a relatively small dataset comprising 42,000 distinct human protein sequences. We retrain these models to process protein-related data, ensuring the generation of biologically feasible protein structures. Our findings demonstrate that even with limited data, the adapted models exhibit efficiency comparable to established protein-focused models such as ProGen varieties, ProtGPT2, and ProLLaMA, which were trained on millions of protein sequences. To validate and quantify the performance of our models, we conduct comparative analyses employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore, we commit to making the trained versions of all four models publicly available, fostering greater transparency and collaboration in the field of computational biology.

Summary

AI-Generated Summary

PDF81November 28, 2024