MIRA : Ancrage de rubrique à mi-entraînement pour la sélection de données tenant compte de la source

Résumé

L’entraînement intermédiaire est devenu une étape importante dans le développement moderne des LLM, utilisant des mélanges organisés à grande échelle pour renforcer les capacités avant le post-entraînement final. Le problème de sélection des données qui lui est propre est le suivant : les données sont optimisées selon un objectif de type pré-entraînement, à une échelle proche de celle du pré-entraînement, mais sont organisées en fonction des capacités en aval et proviennent de sources hétérogènes aux formats et rôles d’entraînement différents. Par conséquent, une sélection efficace nécessite à la fois l’évolutivité et des critères sémantiques adaptés aux sources. Les méthodes existantes basées sur des modèles passent bien à l’échelle, mais ne fournissent que des signaux de qualité implicites. Les méthodes de sélection sémantique offrent des jugements plus solides, mais supposent généralement des rubriques fixes ou des formats de données standardisés. Pour remédier à ce décalage, nous proposons MIRA, un cadre de filtrage tenant compte des sources, fondé sur la découverte de rubriques auto-anchorées. L’idée clé est d’intégrer la construction de rubriques à la sélection des données : MIRA découvre d’abord ce qui doit être évalué pour chaque groupe de sources, puis distille ces jugements en scoreurs étudiants évolutifs pour le filtrage de l’ensemble du corpus. Sur un entraînement intermédiaire orienté code avec 21 sources et 5 groupes de sources, MIRA surpasse les bases de référence de sélection sur neuf benchmarks de code et égale l’exécution sur l’ensemble du corpus tout en n’utilisant que la moitié des tokens.

English

Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.