MIRA: Ancoragem de Rubrica de Treinamento Intermediário para Seleção de Dados Consciente da Fonte

Resumo

O treinamento intermediário tornou-se uma etapa importante no desenvolvimento moderno de LLMs, utilizando misturas curadas em larga escala para fortalecer capacidades antes do pós-treinamento final. Seu problema de seleção de dados é distinto: os dados são otimizados sob um objetivo do tipo pré-treinamento em escala próxima ao pré-treinamento, mas são curados para capacidades downstream e extraídos de fontes heterogêneas com diferentes formatos e funções de treinamento. Como resultado, a seleção eficaz requer tanto escalabilidade quanto critérios semânticos adaptáveis à fonte. Métodos existentes baseados em modelos escalam bem, mas fornecem apenas sinais de qualidade implícitos. Métodos de seleção semântica oferecem julgamentos mais robustos, mas geralmente assumem rubricas fixas ou formatos de dados padronizados. Para resolver essa incompatibilidade, propomos MIRA, uma estrutura de filtragem consciente da fonte baseada em descoberta de rubricas autoancoradas. A ideia chave é tornar a construção de rubricas parte da seleção de dados: MIRA primeiro descobre o que deve ser avaliado para cada grupo de fonte e, em seguida, destila esses julgamentos em classificadores alunos escaláveis para a filtragem do corpus completo. Em treinamento intermediário orientado a código com 21 fontes e 5 grupos de fonte, MIRA supera as linhas de base de seleção em nove benchmarks de código e iguala o desempenho da execução com corpus completo enquanto utiliza apenas metade dos tokens.

English

Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.