MIRA: Mid-Training-Rubrikverankerung für quellenbewusste Datenauswahl

Zusammenfassung

Mid-Training ist zu einer wichtigen Phase in der modernen LLM-Entwicklung geworden, bei der groß angelegte kuratierte Mischungen verwendet werden, um Fähigkeiten vor dem abschließenden Post-Training zu stärken. Das Problem der Datenauswahl ist dabei eigenständig: Die Daten werden unter einem vortrainingsähnlichen Ziel in nahezu vortrainingsgroßem Maßstab optimiert, sind jedoch auf nachgelagerte Fähigkeiten ausgerichtet und stammen aus heterogenen Quellen mit unterschiedlichen Formaten und Trainingsrollen. Daher erfordert eine effektive Auswahl sowohl Skalierbarkeit als auch quellenadaptive semantische Kriterien. Bestehende modellbasierte Methoden skalieren gut, liefern jedoch nur implizite Qualitätssignale. Semantische Auswahlmethoden bieten stärkere Bewertungen, gehen jedoch in der Regel von festen Bewertungskriterien oder standardisierten Datenformaten aus. Um diese Diskrepanz zu beheben, schlagen wir MIRA vor, ein quellenbewusstes Filter-Framework, das auf selbstverankerte Rubrik-Entdeckung basiert. Die Kernidee besteht darin, die Rubrik-Konstruktion zu einem Teil der Datenauswahl zu machen: MIRA ermittelt zunächst, was für jede Quellgruppe bewertet werden sollte, und destilliert diese Bewertungen dann in skalierbare studentische Bewerter für die korpusweite Filterung. Beim codeorientierten Mid-Training mit 21 Quellen und 5 Quellgruppen übertrifft MIRA die Auswahl-Baselines in neun Code-Benchmarks und entspricht dem vollständigen Korpus-Durchlauf, während nur die Hälfte der Token verwendet wird.

English

Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.