MIRA: Midden-training Rubriekverankering voor Bronbewuste Dataselectie

Samenvatting

Midden-training is een belangrijke fase geworden in de moderne ontwikkeling van grote taalmodellen (LLM's), waarbij grootschalige, samengestelde mengsels worden gebruikt om capaciteiten te versterken vóór de uiteindelijke natraining. Het probleem van gegevensselectie is hierbij uniek: de gegevens worden geoptimaliseerd met een voortrainingsachtige doelstelling op bijna-voortrainingsschaal, maar worden samengesteld met het oog op stroomafwaartse capaciteiten en zijn afkomstig uit heterogene bronnen met verschillende formaten en trainingsrollen. Effectieve selectie vereist daarom zowel schaalbaarheid als bronadaptieve semantische criteria. Bestaande modelgebaseerde methoden zijn goed schaalbaar, maar bieden alleen impliciete kwaliteitssignalen. Semantische selectiemethoden bieden sterkere oordelen, maar gaan doorgaans uit van vaste rubrics of gestandaardiseerde gegevensformaten. Om deze mismatch aan te pakken, stellen we MIRA voor, een bronbewust filteringsraamwerk gebaseerd op zelfverankerde rubric-ontdekking. Het kernidee is om rubric-constructie onderdeel te maken van gegevensselectie: MIRA ontdekt eerst wat er voor elke bronnengroep moet worden geëvalueerd en destilleert vervolgens die oordelen in schaalbare student-scoorders voor het filteren van de volledige corpus. Bij codegerichte midden-training met 21 bronnen en 5 bronnengroepen overtreft MIRA de selectie-baselines op negen code-benchmarks en evenaart het de prestaties van de volledige corpus-run, terwijl het slechts de helft van de tokens gebruikt.

English

Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.