Les répartitions équitables bouleversent le classement : CHANRG révèle une généralisation limitée dans la prédiction de la structure secondaire de l'ARN

Résumé

La prédiction précise de la structure secondaire de l'ARN sous-tend l'annotation du transcriptome, l'analyse mécanistique des ARN non codants et la conception de thérapies à base d'ARN. Les récents progrès issus de l'apprentissage profond et des modèles de fondation pour l'ARN sont difficiles à interpréter car les benchmarks actuels pourraient surestimer la généralisation entre les familles d'ARN. Nous présentons CHANRG (Comprehensive Hierarchical Annotation of Non-coding RNA Groups), un benchmark de 170 083 ARN structurellement non redondants, constitué à partir de plus de 10 millions de séquences de Rfam 15.0 en utilisant une déduplication sensible à la structure, une séparation tenant compte du génome et une évaluation structurelle multi-échelle. Sur 29 prédicteurs évalués, les méthodes fondées sur les modèles de fondation ont atteint la plus haute précision sur les données retenues, mais ont perdu la majeure partie de cet avantage en dehors de leur distribution, tandis que les décodeurs structurés et les prédicteurs neuronaux directs sont restés nettement plus robustes. Cet écart a persisté après contrôle de la longueur des séquences et reflétait à la fois une perte de couverture structurelle et un câblage d'ordre supérieur incorrect. Ensemble, CHANRG et une pile d'évaluation exempte de bourrage et sensible à la symétrie fournissent un cadre plus strict et invariant par lot pour développer des prédicteurs de structure d'ARN avec une robustesse hors distribution démontrable.

English

Accurate prediction of RNA secondary structure underpins transcriptome annotation, mechanistic analysis of non-coding RNAs, and RNA therapeutic design. Recent gains from deep learning and RNA foundation models are difficult to interpret because current benchmarks may overestimate generalization across RNA families. We present the Comprehensive Hierarchical Annotation of Non-coding RNA Groups (CHANRG), a benchmark of 170{,}083 structurally non-redundant RNAs curated from more than 10 million sequences in Rfam~15.0 using structure-aware deduplication, genome-aware split design and multiscale structural evaluation. Across 29 predictors, foundation-model methods achieved the highest held-out accuracy but lost most of that advantage out of distribution, whereas structured decoders and direct neural predictors remained markedly more robust. This gap persisted after controlling for sequence length and reflected both loss of structural coverage and incorrect higher-order wiring. Together, CHANRG and a padding-free, symmetry-aware evaluation stack provide a stricter and batch-invariant framework for developing RNA structure predictors with demonstrable out-of-distribution robustness.

Les répartitions équitables bouleversent le classement : CHANRG révèle une généralisation limitée dans la prédiction de la structure secondaire de l'ARN

Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Résumé

Support