ChatPaper.aiChatPaper

Ankh3: Multi-Task-Pretraining mit Sequenzentrauschung und -vervollständigung verbessert Proteinrepräsentationen

Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations

May 26, 2025
Autoren: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI

Zusammenfassung

Protein Language Models (PLMs) haben sich als leistungsstarke Werkzeuge erwiesen, um komplexe Muster in Proteinsequenzen zu erkennen. Die Fähigkeit von PLMs, Informationen über Proteinsequenzen vollständig zu erfassen, könnte jedoch dadurch eingeschränkt sein, dass sie sich auf einzelne Pre-Training-Aufgaben konzentrieren. Obwohl das Hinzufügen von Datenmodalitäten oder überwachten Zielen die Leistung von PLMs verbessern kann, bleibt das Pre-Training oft auf die Entrauschung korrupter Sequenzen beschränkt. Um die Grenzen von PLMs zu erweitern, untersuchte unsere Forschung eine Multi-Task-Pre-Training-Strategie. Wir entwickelten Ankh3, ein Modell, das gemeinsam auf zwei Ziele optimiert wurde: Masked Language Modeling mit mehreren Maskierungswahrscheinlichkeiten und die Vervollständigung von Proteinsequenzen, die ausschließlich auf Proteinsequenzen als Eingabe basiert. Dieses Multi-Task-Pre-Training zeigte, dass PLMs reichere und generalisierbarere Repräsentationen allein aus Proteinsequenzen lernen können. Die Ergebnisse zeigten eine verbesserte Leistung bei nachgelagerten Aufgaben, wie der Vorhersage der Sekundärstruktur, Fluoreszenz, GB1-Fitness und Kontaktvorhersage. Die Integration mehrerer Aufgaben verlieh dem Modell ein umfassenderes Verständnis von Proteineigenschaften, was zu robusteren und genaueren Vorhersagen führte.
English
Protein language models (PLMs) have emerged as powerful tools to detect complex patterns of protein sequences. However, the capability of PLMs to fully capture information on protein sequences might be limited by focusing on single pre-training tasks. Although adding data modalities or supervised objectives can improve the performance of PLMs, pre-training often remains focused on denoising corrupted sequences. To push the boundaries of PLMs, our research investigated a multi-task pre-training strategy. We developed Ankh3, a model jointly optimized on two objectives: masked language modeling with multiple masking probabilities and protein sequence completion relying only on protein sequences as input. This multi-task pre-training demonstrated that PLMs can learn richer and more generalizable representations solely from protein sequences. The results demonstrated improved performance in downstream tasks, such as secondary structure prediction, fluorescence, GB1 fitness, and contact prediction. The integration of multiple tasks gave the model a more comprehensive understanding of protein properties, leading to more robust and accurate predictions.

Summary

AI-Generated Summary

PDF02May 28, 2025