Ankh3: Multi-Task-Pretraining mit Sequenzentrauschung und -vervollständigung verbessert Proteinrepräsentationen
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations
May 26, 2025
Autoren: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI
Zusammenfassung
Protein Language Models (PLMs) haben sich als leistungsstarke Werkzeuge erwiesen, um komplexe Muster in Proteinsequenzen zu erkennen. Die Fähigkeit von PLMs, Informationen über Proteinsequenzen vollständig zu erfassen, könnte jedoch dadurch eingeschränkt sein, dass sie sich auf einzelne Pre-Training-Aufgaben konzentrieren. Obwohl das Hinzufügen von Datenmodalitäten oder überwachten Zielen die Leistung von PLMs verbessern kann, bleibt das Pre-Training oft auf die Entrauschung korrupter Sequenzen beschränkt. Um die Grenzen von PLMs zu erweitern, untersuchte unsere Forschung eine Multi-Task-Pre-Training-Strategie. Wir entwickelten Ankh3, ein Modell, das gemeinsam auf zwei Ziele optimiert wurde: Masked Language Modeling mit mehreren Maskierungswahrscheinlichkeiten und die Vervollständigung von Proteinsequenzen, die ausschließlich auf Proteinsequenzen als Eingabe basiert. Dieses Multi-Task-Pre-Training zeigte, dass PLMs reichere und generalisierbarere Repräsentationen allein aus Proteinsequenzen lernen können. Die Ergebnisse zeigten eine verbesserte Leistung bei nachgelagerten Aufgaben, wie der Vorhersage der Sekundärstruktur, Fluoreszenz, GB1-Fitness und Kontaktvorhersage. Die Integration mehrerer Aufgaben verlieh dem Modell ein umfassenderes Verständnis von Proteineigenschaften, was zu robusteren und genaueren Vorhersagen führte.
English
Protein language models (PLMs) have emerged as powerful tools to detect
complex patterns of protein sequences. However, the capability of PLMs to fully
capture information on protein sequences might be limited by focusing on single
pre-training tasks. Although adding data modalities or supervised objectives
can improve the performance of PLMs, pre-training often remains focused on
denoising corrupted sequences. To push the boundaries of PLMs, our research
investigated a multi-task pre-training strategy. We developed Ankh3, a model
jointly optimized on two objectives: masked language modeling with multiple
masking probabilities and protein sequence completion relying only on protein
sequences as input. This multi-task pre-training demonstrated that PLMs can
learn richer and more generalizable representations solely from protein
sequences. The results demonstrated improved performance in downstream tasks,
such as secondary structure prediction, fluorescence, GB1 fitness, and contact
prediction. The integration of multiple tasks gave the model a more
comprehensive understanding of protein properties, leading to more robust and
accurate predictions.Summary
AI-Generated Summary