GENEB : Pourquoi les modèles génomiques sont difficiles à comparer

Résumé

Il est difficile d'évaluer les progrès des modèles de fondation génomiques en raison de la fragmentation des référentiels, de l'incompatibilité des protocoles d'évaluation et des rapports spécifiques aux tâches. Par conséquent, les affirmations de supériorité ou de généralité entre les modèles ne sont souvent pas directement comparables. Nous présentons GENEB, un référentiel diagnostique à grande échelle qui évalue les représentations figées de 40 modèles de fondation génomiques sur 100 tâches couvrant 13 catégories fonctionnelles, sous un protocole unifié basé sur le sondage, incluant des régimes *few-shot*. GENEB permet une comparaison contrôlée entre l'échelle des modèles, l'architecture, la tokenisation et les données de préentraînement, tout en exposant explicitement les compromis au niveau des tâches. Notre analyse montre que les classements agrégés sont instables : les classements des modèles varient fortement selon les catégories de tâches, l'échelle n'apporte que des gains modestes et irréguliers, et l'alignement architectural et de préentraînement l'emporte fréquemment sur le nombre de paramètres. Ces résultats mettent en évidence les limites des pratiques d'évaluation actuelles et positionnent GENEB comme un cadre de référence pour une comparaison de principe et une sélection de modèles tenant compte des catégories dans l'apprentissage automatique génomique.

English

Progress in genomic foundation models is difficult to assess due to fragmented benchmarks, incompatible evaluation protocols, and task-specific reporting. As a result, claims of superiority or generality across models are often not directly comparable. We introduce GENEB, a large-scale diagnostic benchmark that evaluates frozen representations from 40 genomic foundation models across 100 tasks spanning 13 functional categories under a unified probing-based protocol, including few-shot regimes. GENEB enables controlled comparison across model scale, architecture, tokenization, and pretraining data while explicitly exposing task-level trade-offs. Our analysis shows that aggregate leaderboards are unstable: model rankings vary sharply across task categories, scale provides only modest and inconsistent gains, and architectural and pretraining alignment frequently outweigh parameter count. These results highlight limitations of current evaluation practices and position GENEB as a reference framework for principled comparison and category-aware model selection in genomic machine learning.