ChatPaper.aiChatPaper

단일 규모 구조 생성을 통한 단백질 자기회귀 모델링

Protein Autoregressive Modeling via Multiscale Structure Generation

February 4, 2026
저자: Yanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu
cs.AI

초록

우리는 거시적 접근에서 미시적 예측으로의 다중 규모 자동회귀 프레임워크인 단백질 자동회귀 모델링(PAR)을 제안합니다. PAR은 단백질의 계층적 특성을 활용하여 조각상을 세밀하게 다듬는 방식과 유사하게, 먼저 전체적인 토폴로지를 형성한 후 점차 구조적 디테일을 정교화합니다. 이를 구현하기 위해 PAR은 세 가지 핵심 구성 요소로 이루어집니다: (i) 학습 과정에서 단백질 구조를 다중 규모로 표현하는 다중 규모 다운샘플링 연산, (ii) 다중 규모 정보를 인코딩하고 구조 생성을 안내하는 조건부 임베딩을 생성하는 자동회귀 트랜스포머, (iii) 이러한 임베딩을 조건으로 백본 원자 구조를 생성하는 흐름 기반 백본 디코더. 또한 자동회귀 모델은 학습과 생성 과정의 불일치로 인한 노출 편향 문제로 인해 구조 생성 품질이 크게 저하됩니다. 우리는 노이즈 컨텍스트 학습과 예약 샘플링을 도입하여 이 문제를 효과적으로 완화하며 견고한 백본 생성을 가능하게 합니다. 특히 PAR은 파인튜닝 없이도 강력한 제로샷 일반화 성능을 보여주며, 유연한 인간 주도 조건부 생성 및 모티프 스캐폴딩을 지원합니다. 무조건 생성 벤치마크에서 PAR은 단백질 분포를 효과적으로 학습하고 높은 설계 품질의 백본을 생성하며 우수한 확장성을 나타냅니다. 이러한 특성들은 PAR을 단백질 구조 생성 분야의 유망한 프레임워크로 입증합니다.
English
We present protein autoregressive modeling (PAR), the first multi-scale autoregressive framework for protein backbone generation via coarse-to-fine next-scale prediction. Using the hierarchical nature of proteins, PAR generates structures that mimic sculpting a statue, forming a coarse topology and refining structural details over scales. To achieve this, PAR consists of three key components: (i) multi-scale downsampling operations that represent protein structures across multiple scales during training; (ii) an autoregressive transformer that encodes multi-scale information and produces conditional embeddings to guide structure generation; (iii) a flow-based backbone decoder that generates backbone atoms conditioned on these embeddings. Moreover, autoregressive models suffer from exposure bias, caused by the training and the generation procedure mismatch, and substantially degrades structure generation quality. We effectively alleviate this issue by adopting noisy context learning and scheduled sampling, enabling robust backbone generation. Notably, PAR exhibits strong zero-shot generalization, supporting flexible human-prompted conditional generation and motif scaffolding without requiring fine-tuning. On the unconditional generation benchmark, PAR effectively learns protein distributions and produces backbones of high design quality, and exhibits favorable scaling behavior. Together, these properties establish PAR as a promising framework for protein structure generation.
PDF21February 6, 2026