MIRA: Anclaje de Rúbrica en Entrenamiento Intermedio para Selección de Datos Consciente de la Fuente

Resumen

El entrenamiento intermedio se ha convertido en una etapa importante en el desarrollo moderno de LLM, utilizando mezclas curadas a gran escala para fortalecer capacidades antes del entrenamiento posterior final. Su problema de selección de datos es distintivo: los datos se optimizan bajo un objetivo de estilo de preentrenamiento a una escala cercana al preentrenamiento, pero se curan hacia capacidades posteriores y se extraen de fuentes heterogéneas con diferentes formatos y roles de entrenamiento. Como resultado, la selección efectiva requiere tanto escalabilidad como criterios semánticos adaptativos a la fuente. Los métodos existentes basados en modelos escalan bien, pero proporcionan solo señales implícitas de calidad. Los métodos de selección semántica ofrecen juicios más sólidos, pero generalmente asumen rúbricas fijas o formatos de datos estandarizados. Para abordar este desajuste, proponemos MIRA, un marco de filtrado consciente de la fuente basado en el descubrimiento de rúbricas autoancladas. La idea clave es hacer que la construcción de rúbricas sea parte de la selección de datos: MIRA primero descubre qué debe evaluarse para cada grupo de fuentes, luego destila esos juicios en evaluadores estudiantes escalables para el filtrado de todo el corpus. En el entrenamiento intermedio orientado a código con 21 fuentes y 5 grupos de fuentes, MIRA supera las líneas base de selección en nueve puntos de referencia de código y iguala el rendimiento de la ejecución de todo el corpus mientras utiliza solo la mitad de los tokens.

English

Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.