공정한 분할이 리더보드 뒤집힘: CHANRG, RNA 이차 구조 예측에서 제한된 일반화 성능 드러내
Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction
March 20, 2026
저자: Zhiyuan Chen, Zhenfeng Deng, Pan Deng, Yue Liao, Xiu Su, Peng Ye, Xihui Liu
cs.AI
초록
RNA 2차 구조의 정확한 예측은 전사체 주해, 비코딩 RNA의 기작 분석, RNA 치료제 설계의 기반이 됩니다. 딥러닝과 RNA 파운데이션 모델의 최근 성과는 현재 벤치마크가 RNA 패밀리 간 일반화 성능을 과대평가할 수 있어 해석이 어렵습니다. 본 연구에서는 구조 인식 중복 제거, 게놈 인식 분할 설계 및 다중 규모 구조 평가를 통해 Rfam 15.0의 1천만 개 이상 서열에서 정제한 170,083개의 구조적 중복이 없는 RNA로 구성된 벤치마크인 CHANRG(Comprehensive Hierarchical Annotation of Non-coding RNA Groups)를 제시합니다. 29개 예측 도구 전체에서 파운데이션 모델 기반 방법은 홀드아웃 검증에서 최고 정확도를 달성했으나 분포 외 데이터에서는 해당 장점 대부분을 상실한 반면, 구조적 디코더와 직접 신경 예측 도구는 현저히 더 강건하게 유지되었습니다. 이러한 격차는 서열 길이를 통제한 후에도 지속되었으며, 이는 구조 커버리지 손실과 잘못된 고차 와이어링 모두를 반영했습니다. CHANRG와 패딩 없는 대칭 인식 평가 스택은 함께 작동하여 분포 외 강건성이 입증된 RNA 구조 예측 도구 개발을 위한 더 엄격하고 배치 불변의 프레임워크를 제공합니다.
English
Accurate prediction of RNA secondary structure underpins transcriptome annotation, mechanistic analysis of non-coding RNAs, and RNA therapeutic design. Recent gains from deep learning and RNA foundation models are difficult to interpret because current benchmarks may overestimate generalization across RNA families. We present the Comprehensive Hierarchical Annotation of Non-coding RNA Groups (CHANRG), a benchmark of 170{,}083 structurally non-redundant RNAs curated from more than 10 million sequences in Rfam~15.0 using structure-aware deduplication, genome-aware split design and multiscale structural evaluation. Across 29 predictors, foundation-model methods achieved the highest held-out accuracy but lost most of that advantage out of distribution, whereas structured decoders and direct neural predictors remained markedly more robust. This gap persisted after controlling for sequence length and reflected both loss of structural coverage and incorrect higher-order wiring. Together, CHANRG and a padding-free, symmetry-aware evaluation stack provide a stricter and batch-invariant framework for developing RNA structure predictors with demonstrable out-of-distribution robustness.