Ankh3: Multi-Task Pretraining met Sequentiële Denoising en Voltooiing Verbetert Proteïne Representaties
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations
May 26, 2025
Auteurs: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI
Samenvatting
Eiwit-taalmodellen (PLM's) zijn naar voren gekomen als krachtige hulpmiddelen om complexe patronen in eiwitsequenties te detecteren. Het vermogen van PLM's om informatie over eiwitsequenties volledig vast te leggen, kan echter beperkt worden door zich te richten op enkele voorafgaande trainings taken. Hoewel het toevoegen van datamodaliteiten of begeleide doelen de prestaties van PLM's kan verbeteren, blijft de voorafgaande training vaak gericht op het verwijderen van ruis uit beschadigde sequenties. Om de grenzen van PLM's te verleggen, heeft ons onderzoek een multi-task voorafgaande trainingsstrategie onderzocht. We ontwikkelden Ankh3, een model dat gezamenlijk is geoptimaliseerd voor twee doelen: gemaskeerde taalmodellering met meerdere maskeringskansen en het voltooien van eiwitsequenties, waarbij alleen eiwitsequenties als invoer worden gebruikt. Deze multi-task voorafgaande training toonde aan dat PLM's rijkere en meer generaliseerbare representaties kunnen leren, uitsluitend vanuit eiwitsequenties. De resultaten toonden verbeterde prestaties in downstream taken, zoals secundaire structuurvoorspelling, fluorescentie, GB1-fitness en contactvoorspelling. De integratie van meerdere taken gaf het model een uitgebreider begrip van eiwiteigenschappen, wat leidde tot robuustere en nauwkeurigere voorspellingen.
English
Protein language models (PLMs) have emerged as powerful tools to detect
complex patterns of protein sequences. However, the capability of PLMs to fully
capture information on protein sequences might be limited by focusing on single
pre-training tasks. Although adding data modalities or supervised objectives
can improve the performance of PLMs, pre-training often remains focused on
denoising corrupted sequences. To push the boundaries of PLMs, our research
investigated a multi-task pre-training strategy. We developed Ankh3, a model
jointly optimized on two objectives: masked language modeling with multiple
masking probabilities and protein sequence completion relying only on protein
sequences as input. This multi-task pre-training demonstrated that PLMs can
learn richer and more generalizable representations solely from protein
sequences. The results demonstrated improved performance in downstream tasks,
such as secondary structure prediction, fluorescence, GB1 fitness, and contact
prediction. The integration of multiple tasks gave the model a more
comprehensive understanding of protein properties, leading to more robust and
accurate predictions.