최고로부터의 차별화된 학습: 데이터 선택에 대한 다양성 중심의 재고
Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection
October 21, 2025
저자: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
cs.AI
초록
고품질의 사전 학습 데이터는 대규모 언어 모델에 있어 핵심적인 요소로, 여기서 품질은 사실적 신뢰도와 의미적 가치를 포괄하며, 다양성은 광범위한 커버리지와 분포적 이질성을 보장합니다. 기존 접근법은 일반적으로 단일 또는 다차원 점수 기반 선택에 의존합니다. 그러나 최고 점수 데이터를 직접 선택하는 경우 성능 저하가 발생할 수 있으며, 결과를 회복하기 위해서는 더 넓은 범위에서 샘플링이 필요합니다. 데이터셋 점수와 다운스트림 벤치마크 결과 간의 이러한 비단조성은 근본적인 편향을 드러냅니다: 점수 기반 방법은 상관된 차원을 축소시켜 최고 점수 데이터가 고품질로 보이게 하지만 다양성을 체계적으로 간과합니다. 우리는 다양성을 보장하기 위해 상관된 지표를 직교하는 특징 차원으로 분해하고, 이를 통해 최고 점수 데이터를 직접 선택할 수 있어야 한다고 주장합니다. 따라서, 우리는 데이터 선택 과정에서 품질과 다양성을 모두 보존하는 직교 다양성 인식 선택(Orthogonal Diversity-Aware Selection, ODiS) 알고리즘을 제안합니다. 먼저, ODiS는 언어 품질, 지식 품질, 이해 난이도 등을 포함한 다차원에서 데이터를 평가합니다. 다차원 점수는 주성분 분석(PCA)을 통해 상관관계가 제거되어 직교 평가 차원을 생성합니다. 각 차원에 대해, PCA 투영 점수에 데이터를 회귀시키기 위해 Roberta 기반 스코어러를 훈련시켜 대규모 코퍼스에 대한 확장 가능한 추론을 가능하게 합니다. 마지막으로, ODiS는 각 직교 차원 내에서 최고 점수 데이터를 선택하여 훈련 데이터셋을 구성함으로써 품질과 다양성을 모두 보장합니다. 실험 결과, ODiS로 선택된 데이터는 차원 간 중복이 2% 미만으로 나타나 차원 간 직교성을 확인했습니다. 더 중요한 것은, ODiS로 선택된 데이터로 훈련된 모델이 다운스트림 벤치마크에서 다른 기준선을 크게 능가하며, 이는 LLM을 위한 직교적이고 다양성 인식 데이터 선택의 필요성을 강조합니다.
English
High-quality pre-training data is crutial for large language models, where
quality captures factual reliability and semantic value, and diversity ensures
broad coverage and distributional heterogeneity. Existing approaches typically
rely on single or multiple-dimensional score-based selection. However, directly
selecting top-scored data often degrades performance, and sampling from a
broader range is required to recover results. The above non-monotonicity
between dataset scores and downstream benchmark results reveals a fundamental
bias: score-based methods collapse correlated dimensions, causing top-scored
data to appear high-quality while systematically overlooking diversity. We
argue that ensuring diversity requires decomposing correlated metrics into
orthogonal feature dimensions, from which the top-scored data can be directly
selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection
(ODiS) algorithm, which preserves both quality and diversity during data
selection. First, ODiS evaluates data from multiple dimensions, covering
language quality, knowledge quality, and comprehension difficulty. The
multi-dimensional scores are then decorrelated via Principal Component Analysis
(PCA), yielding orthogonal evaluation dimensions. For each dimension, a
Roberta-based scorer is trained to regress the data onto PCA-projected scores,
enabling scalable inference on large corpora. Finally, ODiS constructs the
training dataset by selecting top-scored data within each orthogonal dimension,
thereby ensuring both quality and diversity. Empirical results show that
ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming
orthogonality between dimensions. More importantly, models trained with
ODiS-selected data significantly outperform other baselines on downstream
benchmarks, highlighting the necessity of orthogonal, diversity-aware data
selection for LLMs.