Справедливое разделение данных переворачивает таблицу лидеров: метод CHANRG демонстрирует ограниченную обобщающую способность в предсказании вторичной структуры РНК

Аннотация

Точное предсказание вторичной структуры РНК лежит в основе аннотации транскриптома, механистического анализа некодирующих РНК и разработки РНК-терапевтических средств. Недавние достижения, основанные на глубоком обучении и фреймворковых моделях РНК, сложно интерпретировать, поскольку существующие бенчмарки могут переоценивать способность к обобщению данных между различными семействами РНК. Мы представляем Комплексную иерархическую аннотацию групп некодирующих РНК (CHANRG) — бенчмарк, содержащий 170 083 структурно нередунантных РНК, отобранных из более чем 10 миллионов последовательностей базы данных Rfam 15.0 с использованием структурной дедупликации, геномно-ориентированного разделения данных и многоуровневой структурной оценки. Среди 29 алгоритмов предсказания методы на основе фреймворковых моделей показали наивысшую точность на тестовой выборке, но утратили большую часть этого преимущества на данных за пределами распределения, в то время как структурированные декодеры и прямые нейросетевые предикторы сохранили значительно более высокую робастность. Этот разрыв сохранялся после контроля длины последовательности и отражал как потерю структурного охвата, так и некорректное предсказание третичных взаимодействий. В совокупности CHANRG и оценочный стек, свободный от дополнения (padding-free) и учитывающий симметрию, обеспечивают более строгую и инвариантную к размеру батча основу для разработки предсказателей структуры РНК с демонстрируемой робастностью к данным за пределами распределения обучения.

English

Accurate prediction of RNA secondary structure underpins transcriptome annotation, mechanistic analysis of non-coding RNAs, and RNA therapeutic design. Recent gains from deep learning and RNA foundation models are difficult to interpret because current benchmarks may overestimate generalization across RNA families. We present the Comprehensive Hierarchical Annotation of Non-coding RNA Groups (CHANRG), a benchmark of 170{,}083 structurally non-redundant RNAs curated from more than 10 million sequences in Rfam~15.0 using structure-aware deduplication, genome-aware split design and multiscale structural evaluation. Across 29 predictors, foundation-model methods achieved the highest held-out accuracy but lost most of that advantage out of distribution, whereas structured decoders and direct neural predictors remained markedly more robust. This gap persisted after controlling for sequence length and reflected both loss of structural coverage and incorrect higher-order wiring. Together, CHANRG and a padding-free, symmetry-aware evaluation stack provide a stricter and batch-invariant framework for developing RNA structure predictors with demonstrable out-of-distribution robustness.

Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Аннотация

Support