Divisioni eque stravolgono la classifica: CHANRG rivella una generalizzazione limitata nella predizione della struttura secondaria dell'RNA

Abstract

La previsione accurata della struttura secondaria dell'RNA è alla base dell'annotazione del trascrittoma, dell'analisi meccanicistica degli RNA non codificanti e della progettazione di terapie a base di RNA. I recenti progressi ottenuti con il deep learning e i modelli fondazionali per l'RNA sono di difficile interpretazione poiché gli attuali benchmark potrebbero sovrastimare la generalizzazione tra le diverse famiglie di RNA. Presentiamo CHANRG (Comprehensive Hierarchical Annotation of Non-coding RNA Groups), un benchmark di 170.083 RNA strutturalmente non ridondanti, selezionati da oltre 10 milioni di sequenze in Rfam 15.0 mediante deduplicazione basata sulla struttura, progettazione di split consapevole del genoma e valutazione strutturale multiscala. Su 29 predittori testati, i metodi basati su modelli fondazionali hanno ottenuto la massima accuratezza sui dati di test (*held-out*), ma hanno perso la maggior parte di questo vantaggio al di fuori della distribuzione di addestramento, mentre i decoder strutturati e i predittori neurali diretti sono rimasti notevolmente più robusti. Questo divario è persistito dopo aver controllato per la lunghezza della sequenza e ha riflesso sia una perdita di copertura strutturale che un cablaggio incorretto di ordine superiore. Insieme, CHANGRG e uno stack di valutazione privo di *padding* e consapevole della simmetria forniscono un framework più rigoroso e invariante al batch per lo sviluppo di predittori di struttura dell'RNA con una robustezza fuori distribuzione dimostrabile.

English

Accurate prediction of RNA secondary structure underpins transcriptome annotation, mechanistic analysis of non-coding RNAs, and RNA therapeutic design. Recent gains from deep learning and RNA foundation models are difficult to interpret because current benchmarks may overestimate generalization across RNA families. We present the Comprehensive Hierarchical Annotation of Non-coding RNA Groups (CHANRG), a benchmark of 170{,}083 structurally non-redundant RNAs curated from more than 10 million sequences in Rfam~15.0 using structure-aware deduplication, genome-aware split design and multiscale structural evaluation. Across 29 predictors, foundation-model methods achieved the highest held-out accuracy but lost most of that advantage out of distribution, whereas structured decoders and direct neural predictors remained markedly more robust. This gap persisted after controlling for sequence length and reflected both loss of structural coverage and incorrect higher-order wiring. Together, CHANRG and a padding-free, symmetry-aware evaluation stack provide a stricter and batch-invariant framework for developing RNA structure predictors with demonstrable out-of-distribution robustness.

Divisioni eque stravolgono la classifica: CHANRG rivella una generalizzazione limitata nella predizione della struttura secondaria dell'RNA

Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Abstract

Support