ChatPaper.aiChatPaper

Modélisation Autoregressive des Protéines via la Génération de Structures Multi-échelles

Protein Autoregressive Modeling via Multiscale Structure Generation

February 4, 2026
papers.authors: Yanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu
cs.AI

papers.abstract

Nous présentons la modélisation autogressive des protéines (PAR), le premier cadre autogressif multi-échelle pour la génération de squelette protéique via une prédiction hiérarchique allant du grossier au fin. En exploitant la nature hiérarchique des protéines, PAR génère des structures qui imitent la sculpture d'une statue, formant d'abord une topologie grossière avant d'affiner les détails structurels à travers les échelles. Pour y parvenir, PAR comprend trois composants clés : (i) des opérations de sous-échantillonnage multi-échelles qui représentent les structures protéiques à plusieurs échelles durant l'entraînement ; (ii) un transformeur autogressif qui encode l'information multi-échelle et produit des plongements conditionnels pour guider la génération de structures ; (iii) un décodeur de squelette basé sur des flux qui génère les atomes du squelette conditionnellement à ces plongements. De plus, les modèles autogressifs souffrent du biais d'exposition, causé par l'écart entre les procédures d'entraînement et de génération, ce qui dégrade substantiellement la qualité de la génération des structures. Nous atténuons efficacement ce problème en adoptant l'apprentissage par contexte bruité et l'échantillonnage planifié, permettant une génération robuste du squelette. Notamment, PAR présente une forte généralisation zero-shot, supportant une génération conditionnelle flexible guidée par l'humain et l'échafaudage de motifs sans nécessiter de micro-ajustement. Sur le benchmark de génération inconditionnelle, PAR apprend efficacement les distributions de protéines et produit des squelettes de haute qualité conceptuelle, tout en présentant un comportement d'échelle favorable. Ensemble, ces propriétés établissent PAR comme un cadre prometteur pour la génération de structures protéiques.
English
We present protein autoregressive modeling (PAR), the first multi-scale autoregressive framework for protein backbone generation via coarse-to-fine next-scale prediction. Using the hierarchical nature of proteins, PAR generates structures that mimic sculpting a statue, forming a coarse topology and refining structural details over scales. To achieve this, PAR consists of three key components: (i) multi-scale downsampling operations that represent protein structures across multiple scales during training; (ii) an autoregressive transformer that encodes multi-scale information and produces conditional embeddings to guide structure generation; (iii) a flow-based backbone decoder that generates backbone atoms conditioned on these embeddings. Moreover, autoregressive models suffer from exposure bias, caused by the training and the generation procedure mismatch, and substantially degrades structure generation quality. We effectively alleviate this issue by adopting noisy context learning and scheduled sampling, enabling robust backbone generation. Notably, PAR exhibits strong zero-shot generalization, supporting flexible human-prompted conditional generation and motif scaffolding without requiring fine-tuning. On the unconditional generation benchmark, PAR effectively learns protein distributions and produces backbones of high design quality, and exhibits favorable scaling behavior. Together, these properties establish PAR as a promising framework for protein structure generation.
PDF21February 6, 2026