MIRA: Закрепление рубрик на промежуточном этапе обучения для выбора данных с учетом источника

Аннотация

Промежуточное обучение стало важным этапом в разработке современных больших языковых моделей, при котором используются крупномасштабные подобранные смеси для усиления способностей перед финальным пост-обучением. Проблема отбора данных для этого этапа отличается: данные оптимизируются с использованием цели, аналогичной предварительному обучению, в масштабе, близком к предварительному обучению, но при этом они подбираются с учетом прикладных возможностей и извлекаются из разнородных источников с различными форматами и обучающими ролями. В результате эффективный отбор требует как масштабируемости, так и семантических критериев, адаптируемых к источникам. Существующие методы, основанные на моделях, хорошо масштабируются, но предоставляют лишь неявные сигналы качества. Методы семантического отбора обеспечивают более строгие оценки, но обычно предполагают фиксированные рубрики или стандартизированные форматы данных. Чтобы устранить это несоответствие, мы предлагаем MIRA — систему фильтрации с учетом источников, основанную на обнаружении самопривязанных рубрик. Ключевая идея заключается в том, чтобы сделать построение рубрик частью отбора данных: MIRA сначала определяет, что следует оценивать для каждой группы источников, а затем дистиллирует эти оценки в масштабируемые ученические скоринговые модели для фильтрации всего корпуса. При промежуточном обучении, ориентированном на код, с 21 источником и 5 группами источников, MIRA превосходит базовые методы отбора по девяти эталонным тестам кода и достигает результатов, сопоставимых с прогоном по полному корпусу, используя при этом лишь половину токенов.

English

Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.