Учимся у лучших, но иначе: переосмысление выбора данных через призму разнообразия
Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection
October 21, 2025
Авторы: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
cs.AI
Аннотация
Высококачественные данные для предварительного обучения имеют решающее значение для больших языковых моделей, где качество охватывает фактологическую надежность и семантическую ценность, а разнообразие обеспечивает широкий охват и распределительную неоднородность. Существующие подходы обычно полагаются на одно- или многомерный отбор на основе оценок. Однако прямой выбор данных с наивысшими оценками часто ухудшает производительность, и требуется выборка из более широкого диапазона для восстановления результатов. Указанная немонотонность между оценками набора данных и результатами на эталонных тестах выявляет фундаментальное смещение: методы, основанные на оценках, объединяют коррелированные измерения, что приводит к тому, что данные с наивысшими оценками кажутся высококачественными, но систематически упускают разнообразие. Мы утверждаем, что обеспечение разнообразия требует декомпозиции коррелированных метрик на ортогональные измерения признаков, из которых можно напрямую выбирать данные с наивысшими оценками. Поэтому мы предложили алгоритм Orthogonal Diversity-Aware Selection (ODiS), который сохраняет как качество, так и разнообразие при отборе данных. Во-первых, ODiS оценивает данные по нескольким измерениям, охватывая качество языка, качество знаний и сложность понимания. Многомерные оценки затем декоррелируются с помощью метода главных компонент (PCA), что дает ортогональные измерения оценки. Для каждого измерения обучается модель на основе Roberta для регрессии данных на PCA-проектированные оценки, что позволяет масштабировать вывод на большие корпуса. Наконец, ODiS формирует обучающий набор данных, выбирая данные с наивысшими оценками в каждом ортогональном измерении, тем самым обеспечивая как качество, так и разнообразие. Эмпирические результаты показывают, что данные, отобранные с помощью ODiS, имеют менее 2% перекрытия между измерениями, подтверждая ортогональность измерений. Что более важно, модели, обученные на данных, отобранных с помощью ODiS, значительно превосходят другие базовые подходы на эталонных тестах, подчеркивая необходимость ортогонального, учитывающего разнообразие отбора данных для больших языковых моделей.
English
High-quality pre-training data is crutial for large language models, where
quality captures factual reliability and semantic value, and diversity ensures
broad coverage and distributional heterogeneity. Existing approaches typically
rely on single or multiple-dimensional score-based selection. However, directly
selecting top-scored data often degrades performance, and sampling from a
broader range is required to recover results. The above non-monotonicity
between dataset scores and downstream benchmark results reveals a fundamental
bias: score-based methods collapse correlated dimensions, causing top-scored
data to appear high-quality while systematically overlooking diversity. We
argue that ensuring diversity requires decomposing correlated metrics into
orthogonal feature dimensions, from which the top-scored data can be directly
selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection
(ODiS) algorithm, which preserves both quality and diversity during data
selection. First, ODiS evaluates data from multiple dimensions, covering
language quality, knowledge quality, and comprehension difficulty. The
multi-dimensional scores are then decorrelated via Principal Component Analysis
(PCA), yielding orthogonal evaluation dimensions. For each dimension, a
Roberta-based scorer is trained to regress the data onto PCA-projected scores,
enabling scalable inference on large corpora. Finally, ODiS constructs the
training dataset by selecting top-scored data within each orthogonal dimension,
thereby ensuring both quality and diversity. Empirical results show that
ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming
orthogonality between dimensions. More importantly, models trained with
ODiS-selected data significantly outperform other baselines on downstream
benchmarks, highlighting the necessity of orthogonal, diversity-aware data
selection for LLMs.