GENEB: Почему геномные модели сложно сравнивать

Аннотация

Прогресс в области фундаментальных геномных моделей трудно оценить из-за фрагментированных бенчмарков, несовместимых протоколов оценки и специфической для задач отчетности. В результате утверждения о превосходстве или общности моделей часто не являются напрямую сопоставимыми. Мы представляем GENEB — крупномасштабный диагностический бенчмарк, который оценивает замороженные представления 40 фундаментальных геномных моделей по 100 задачам, охватывающим 13 функциональных категорий, в рамках унифицированного протокола на основе зондирования, включая режимы с малым количеством примеров. GENEB позволяет проводить контролируемое сравнение по масштабу модели, архитектуре, токенизации и данным предварительного обучения, одновременно явно выявляя компромиссы на уровне задач. Наш анализ показывает, что агрегированные таблицы лидеров нестабильны: ранжирование моделей резко варьируется в зависимости от категорий задач, масштаб дает лишь скромные и непостоянные улучшения, а согласованность архитектуры и предварительного обучения часто перевешивает количество параметров. Эти результаты подчеркивают ограничения текущих практик оценки и позиционируют GENEB как эталонную платформу для принципиального сравнения и выбора моделей с учетом категорий в геномном машинном обучении.

English

Progress in genomic foundation models is difficult to assess due to fragmented benchmarks, incompatible evaluation protocols, and task-specific reporting. As a result, claims of superiority or generality across models are often not directly comparable. We introduce GENEB, a large-scale diagnostic benchmark that evaluates frozen representations from 40 genomic foundation models across 100 tasks spanning 13 functional categories under a unified probing-based protocol, including few-shot regimes. GENEB enables controlled comparison across model scale, architecture, tokenization, and pretraining data while explicitly exposing task-level trade-offs. Our analysis shows that aggregate leaderboards are unstable: model rankings vary sharply across task categories, scale provides only modest and inconsistent gains, and architectural and pretraining alignment frequently outweigh parameter count. These results highlight limitations of current evaluation practices and position GENEB as a reference framework for principled comparison and category-aware model selection in genomic machine learning.