ChatPaper.aiChatPaper

Авторегрессионное моделирование белков с помощью генерации мультимасштабных структур

Protein Autoregressive Modeling via Multiscale Structure Generation

February 4, 2026
Авторы: Yanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu
cs.AI

Аннотация

Мы представляем авторегрессионное моделирование белков (PAR) — первую мультимасштабную авторегрессионную архитектуру для генерации белковых остовов по принципу «от грубого к точному» через прогнозирование следующего масштаба. Используя иерархическую природу белков, PAR генерирует структуры, имитирующие процесс ваяния скульптуры: формирование грубой топологии с последующим уточнением структурных деталей across scales. Для достижения этого PAR включает три ключевых компонента: (i) операции мультимасштабного понижения разрешения, представляющие белковые структуры на различных масштабах во время обучения; (ii) авторегрессионный трансформер, кодирующий мультимасштабную информацию и генерирующий условные эмбеддинги для управления генерацией структур; (iii) flow-based декодер остова, генерирующий атомы остова с учетом этих эмбеддингов. Кроме того, авторегрессионные модели страдают от экспозиционного смещения, вызванного несоответствием процедур обучения и генерации, что существенно снижает качество генерации структур. Мы эффективно смягчаем эту проблему за счет обучения с зашумленным контекстом и планируемого сэмплирования, обеспечивая robust генерацию остовов. Примечательно, что PAR демонстрирует сильную zero-shot генерализацию, поддерживая гибкую условную генерацию по человеческим промптам и каркасирование мотивов без необходимости дообучения. На бенчмарке безусловной генерации PAR эффективно изучает распределения белков и производит остовы высокого качества для дизайна, демонстрируя благоприятные scaling свойства. В совокупности эти свойства устанавливают PAR как перспективную архитектуру для генерации белковых структур.
English
We present protein autoregressive modeling (PAR), the first multi-scale autoregressive framework for protein backbone generation via coarse-to-fine next-scale prediction. Using the hierarchical nature of proteins, PAR generates structures that mimic sculpting a statue, forming a coarse topology and refining structural details over scales. To achieve this, PAR consists of three key components: (i) multi-scale downsampling operations that represent protein structures across multiple scales during training; (ii) an autoregressive transformer that encodes multi-scale information and produces conditional embeddings to guide structure generation; (iii) a flow-based backbone decoder that generates backbone atoms conditioned on these embeddings. Moreover, autoregressive models suffer from exposure bias, caused by the training and the generation procedure mismatch, and substantially degrades structure generation quality. We effectively alleviate this issue by adopting noisy context learning and scheduled sampling, enabling robust backbone generation. Notably, PAR exhibits strong zero-shot generalization, supporting flexible human-prompted conditional generation and motif scaffolding without requiring fine-tuning. On the unconditional generation benchmark, PAR effectively learns protein distributions and produces backbones of high design quality, and exhibits favorable scaling behavior. Together, these properties establish PAR as a promising framework for protein structure generation.
PDF21February 6, 2026