ChatPaper.aiChatPaper

Eiwitautoregressieve modellering via multischaalstructuurgeneratie

Protein Autoregressive Modeling via Multiscale Structure Generation

February 4, 2026
Auteurs: Yanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu
cs.AI

Samenvatting

Wij presenteren protein autoregressive modeling (PAR), het eerste multi-scale autoregressieve raamwerk voor de generatie van proteïne-backbones via coarse-to-fine voorspelling op de volgende schaal. PAR maakt gebruik van de hiërarchische aard van proteïnen om structuren te genereren die lijken op het beeldhouwen van een standbeeld: eerst wordt een grove topologie gevormd, waarna structurele details over verschillende schalen worden verfijnd. Om dit te bereiken bestaat PAR uit drie belangrijke componenten: (i) multi-scale downsampling-operaties die proteïnestructuren tijdens de training op meerdere schalen representeren; (ii) een autoregressieve transformer die multi-scale informatie codeert en conditionele embeddings produceert om de structuurgeneratie te sturen; (iii) een op flows gebaseerde backbone-decoder die backbone-atomen genereert, geconditioneerd op deze embeddings. Bovendien lijden autoregressieve modellen onder exposure bias, veroorzaakt door een mismatch tussen de trainings- en generatieprocedure, wat de kwaliteit van de structuurgeneratie aanzienlijk aantast. Wij verlichten dit probleem effectief door de invoering van *noisy context learning* en *scheduled sampling*, wat een robuuste backbone-generatie mogelijk maakt. Opmerkelijk is dat PAR sterke zero-shot-generalizatie vertoont, waarbij het flexibele, door de gebruiker geprompte conditionele generatie en *motif scaffolding* ondersteunt zonder *fine-tuning* te vereisen. Op de benchmark voor onvoorwaardelijke generatie leert PAR effectief proteïnedistributies, produceert het backbones van hoge ontwerpkwaliteit en vertoont het gunstige schaalgedrag. Gezamenlijk vestigen deze eigenschappen PAR als een veelbelovend raamwerk voor proteïnestructuurgeneratie.
English
We present protein autoregressive modeling (PAR), the first multi-scale autoregressive framework for protein backbone generation via coarse-to-fine next-scale prediction. Using the hierarchical nature of proteins, PAR generates structures that mimic sculpting a statue, forming a coarse topology and refining structural details over scales. To achieve this, PAR consists of three key components: (i) multi-scale downsampling operations that represent protein structures across multiple scales during training; (ii) an autoregressive transformer that encodes multi-scale information and produces conditional embeddings to guide structure generation; (iii) a flow-based backbone decoder that generates backbone atoms conditioned on these embeddings. Moreover, autoregressive models suffer from exposure bias, caused by the training and the generation procedure mismatch, and substantially degrades structure generation quality. We effectively alleviate this issue by adopting noisy context learning and scheduled sampling, enabling robust backbone generation. Notably, PAR exhibits strong zero-shot generalization, supporting flexible human-prompted conditional generation and motif scaffolding without requiring fine-tuning. On the unconditional generation benchmark, PAR effectively learns protein distributions and produces backbones of high design quality, and exhibits favorable scaling behavior. Together, these properties establish PAR as a promising framework for protein structure generation.
PDF21February 6, 2026