Las divisiones justas cambian la clasificación: CHANRG revela una generalización limitada en la predicción de estructuras secundarias de ARN.

Resumen

La predicción precisa de la estructura secundaria del ARN sustenta la anotación del transcriptoma, el análisis mecanicista de ARN no codificantes y el diseño de terapias basadas en ARN. Las recientes mejoras procedentes del aprendizaje profundo y los modelos fundacionales de ARN son difíciles de interpretar porque los puntos de referencia actuales pueden sobrestimar la generalización entre familias de ARN. Presentamos CHANRG (Comprehensive Hierarchical Annotation of Non-coding RNA Groups), un punto de referencia que comprende 170.083 ARN estructuralmente no redundantes, seleccionados de más de 10 millones de secuencias en Rfam 15.0 mediante deduplicación con consciencia estructural, diseño de divisiones con consciencia genómica y evaluación estructural multiescala. Entre 29 predictores, los métodos basados en modelos fundacionales alcanzaron la mayor precisión en datos retenidos, pero perdieron la mayor parte de esa ventaja fuera de distribución, mientras que los decodificadores estructurados y los predictores neuronales directos mantuvieron una robustez notablemente superior. Esta brecha persistió tras controlar por la longitud de la secuencia y reflejó tanto una pérdida de cobertura estructural como un cableado incorrecto de orden superior. En conjunto, CHANRG y una pila de evaluación sin relleno y con consciencia de simetría proporcionan un marco más estricto e invariante al procesamiento por lotes para desarrollar predictores de estructura de ARN con una robustez fuera de distribución demostrable.

English

Accurate prediction of RNA secondary structure underpins transcriptome annotation, mechanistic analysis of non-coding RNAs, and RNA therapeutic design. Recent gains from deep learning and RNA foundation models are difficult to interpret because current benchmarks may overestimate generalization across RNA families. We present the Comprehensive Hierarchical Annotation of Non-coding RNA Groups (CHANRG), a benchmark of 170{,}083 structurally non-redundant RNAs curated from more than 10 million sequences in Rfam~15.0 using structure-aware deduplication, genome-aware split design and multiscale structural evaluation. Across 29 predictors, foundation-model methods achieved the highest held-out accuracy but lost most of that advantage out of distribution, whereas structured decoders and direct neural predictors remained markedly more robust. This gap persisted after controlling for sequence length and reflected both loss of structural coverage and incorrect higher-order wiring. Together, CHANRG and a padding-free, symmetry-aware evaluation stack provide a stricter and batch-invariant framework for developing RNA structure predictors with demonstrable out-of-distribution robustness.

Las divisiones justas cambian la clasificación: CHANRG revela una generalización limitada en la predicción de estructuras secundarias de ARN.

Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Resumen

Support