Ankh3: Multi-Task Pretraining met Sequentiële Denoising en Voltooiing Verbetert Proteïne Representaties

Samenvatting

Eiwit-taalmodellen (PLM's) zijn naar voren gekomen als krachtige hulpmiddelen om complexe patronen in eiwitsequenties te detecteren. Het vermogen van PLM's om informatie over eiwitsequenties volledig vast te leggen, kan echter beperkt worden door zich te richten op enkele voorafgaande trainings taken. Hoewel het toevoegen van datamodaliteiten of begeleide doelen de prestaties van PLM's kan verbeteren, blijft de voorafgaande training vaak gericht op het verwijderen van ruis uit beschadigde sequenties. Om de grenzen van PLM's te verleggen, heeft ons onderzoek een multi-task voorafgaande trainingsstrategie onderzocht. We ontwikkelden Ankh3, een model dat gezamenlijk is geoptimaliseerd voor twee doelen: gemaskeerde taalmodellering met meerdere maskeringskansen en het voltooien van eiwitsequenties, waarbij alleen eiwitsequenties als invoer worden gebruikt. Deze multi-task voorafgaande training toonde aan dat PLM's rijkere en meer generaliseerbare representaties kunnen leren, uitsluitend vanuit eiwitsequenties. De resultaten toonden verbeterde prestaties in downstream taken, zoals secundaire structuurvoorspelling, fluorescentie, GB1-fitness en contactvoorspelling. De integratie van meerdere taken gaf het model een uitgebreider begrip van eiwiteigenschappen, wat leidde tot robuustere en nauwkeurigere voorspellingen.

English

Protein language models (PLMs) have emerged as powerful tools to detect complex patterns of protein sequences. However, the capability of PLMs to fully capture information on protein sequences might be limited by focusing on single pre-training tasks. Although adding data modalities or supervised objectives can improve the performance of PLMs, pre-training often remains focused on denoising corrupted sequences. To push the boundaries of PLMs, our research investigated a multi-task pre-training strategy. We developed Ankh3, a model jointly optimized on two objectives: masked language modeling with multiple masking probabilities and protein sequence completion relying only on protein sequences as input. This multi-task pre-training demonstrated that PLMs can learn richer and more generalizable representations solely from protein sequences. The results demonstrated improved performance in downstream tasks, such as secondary structure prediction, fluorescence, GB1 fitness, and contact prediction. The integration of multiple tasks gave the model a more comprehensive understanding of protein properties, leading to more robust and accurate predictions.

Ankh3: Multi-Task Pretraining met Sequentiële Denoising en Voltooiing Verbetert Proteïne Representaties

Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations

Samenvatting

Support