ChatPaper.aiChatPaper

Modelado Autoregresivo de Proteínas mediante Generación de Estructuras Multiescala

Protein Autoregressive Modeling via Multiscale Structure Generation

February 4, 2026
Autores: Yanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu
cs.AI

Resumen

Presentamos el modelado autoregresivo de proteínas (PAR), el primer marco autoregresivo multiescala para la generación de estructuras proteicas mediante predicción de siguiente escala de grueso a fino. Aprovechando la naturaleza jerárquica de las proteínas, PAR genera estructuras que imitan esculpir una estatua, formando primero una topología gruesa y refinando después los detalles estructurales a través de escalas. Para lograrlo, PAR consta de tres componentes clave: (i) operaciones de submuestreo multiescala que representan las estructuras proteicas en múltiples escalas durante el entrenamiento; (ii) un transformador autoregresivo que codifica información multiescala y produce *embeddings* condicionales para guiar la generación de estructuras; (iii) un decodificador de estructura basado en *flows* que genera los átomos de la estructura principal condicionados por estos *embeddings*. Además, los modelos autoregresivos sufren de *exposure bias*, causado por la discrepancia entre el procedimiento de entrenamiento y el de generación, lo que degrada sustancialmente la calidad de la generación estructural. Mitigamos eficazmente este problema adoptando el aprendizaje con contexto ruidoso y el *scheduled sampling*, permitiendo una generación robusta de la estructura principal. Notablemente, PAR exhibe una fuerte generalización *zero-shot*, soportando la generación condicional flexible guiada por el usuario y el *scaffolding* de motivos sin necesidad de ajuste fino. En el benchmark de generación incondicional, PAR aprende eficazmente las distribuciones de proteínas y produce estructuras de alta calidad de diseño, mostrando un comportamiento de escalado favorable. En conjunto, estas propiedades establecen a PAR como un marco prometedor para la generación de estructuras proteicas.
English
We present protein autoregressive modeling (PAR), the first multi-scale autoregressive framework for protein backbone generation via coarse-to-fine next-scale prediction. Using the hierarchical nature of proteins, PAR generates structures that mimic sculpting a statue, forming a coarse topology and refining structural details over scales. To achieve this, PAR consists of three key components: (i) multi-scale downsampling operations that represent protein structures across multiple scales during training; (ii) an autoregressive transformer that encodes multi-scale information and produces conditional embeddings to guide structure generation; (iii) a flow-based backbone decoder that generates backbone atoms conditioned on these embeddings. Moreover, autoregressive models suffer from exposure bias, caused by the training and the generation procedure mismatch, and substantially degrades structure generation quality. We effectively alleviate this issue by adopting noisy context learning and scheduled sampling, enabling robust backbone generation. Notably, PAR exhibits strong zero-shot generalization, supporting flexible human-prompted conditional generation and motif scaffolding without requiring fine-tuning. On the unconditional generation benchmark, PAR effectively learns protein distributions and produces backbones of high design quality, and exhibits favorable scaling behavior. Together, these properties establish PAR as a promising framework for protein structure generation.
PDF21February 6, 2026