ChatPaper.aiChatPaper

最良から学ぶ、しかし異なる方法で:データ選択に関する多様性主導の再考

Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

October 21, 2025
著者: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
cs.AI

要旨

高品質な事前学習データは大規模言語モデルにおいて極めて重要であり、ここで言う品質とは事実の信頼性と意味的価値を指し、多様性は広範なカバレッジと分布の異質性を保証する。既存のアプローチでは通常、単一または多次元のスコアベースの選択に依存している。しかし、単に高スコアのデータを選択するだけでは性能が低下し、結果を回復するためにはより広範な範囲からのサンプリングが必要となる。データセットのスコアと下流ベンチマーク結果の間のこの非単調性は、根本的なバイアスを明らかにしている:スコアベースの手法は相関する次元を崩壊させ、高スコアのデータが高品質に見える一方で、体系的に多様性を見落とす。我々は、多様性を保証するためには、相関する指標を直交する特徴次元に分解し、そこから高スコアのデータを直接選択する必要があると主張する。そこで、我々は直交性を考慮した多様性認識選択(Orthogonal Diversity-Aware Selection, ODiS)アルゴリズムを提案し、データ選択において品質と多様性の両方を保持する。まず、ODiSは言語品質、知識品質、理解難易度など複数の次元からデータを評価する。次に、多次元スコアは主成分分析(PCA)によって相関を除去され、直交する評価次元が得られる。各次元に対して、PCA投影されたスコアにデータを回帰するためにRobertaベースのスコアラーが訓練され、大規模コーパスでのスケーラブルな推論が可能となる。最後に、ODiSは各直交次元内で高スコアのデータを選択することで訓練データセットを構築し、品質と多様性の両方を保証する。実験結果は、ODiSで選択されたデータが次元間で2%未満の重複を示し、次元間の直交性を確認している。さらに重要なことに、ODiSで選択されたデータで訓練されたモデルは、下流ベンチマークにおいて他のベースラインを大幅に上回り、大規模言語モデルにおける直交性を考慮した多様性認識データ選択の必要性を強調している。
English
High-quality pre-training data is crutial for large language models, where quality captures factual reliability and semantic value, and diversity ensures broad coverage and distributional heterogeneity. Existing approaches typically rely on single or multiple-dimensional score-based selection. However, directly selecting top-scored data often degrades performance, and sampling from a broader range is required to recover results. The above non-monotonicity between dataset scores and downstream benchmark results reveals a fundamental bias: score-based methods collapse correlated dimensions, causing top-scored data to appear high-quality while systematically overlooking diversity. We argue that ensuring diversity requires decomposing correlated metrics into orthogonal feature dimensions, from which the top-scored data can be directly selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection (ODiS) algorithm, which preserves both quality and diversity during data selection. First, ODiS evaluates data from multiple dimensions, covering language quality, knowledge quality, and comprehension difficulty. The multi-dimensional scores are then decorrelated via Principal Component Analysis (PCA), yielding orthogonal evaluation dimensions. For each dimension, a Roberta-based scorer is trained to regress the data onto PCA-projected scores, enabling scalable inference on large corpora. Finally, ODiS constructs the training dataset by selecting top-scored data within each orthogonal dimension, thereby ensuring both quality and diversity. Empirical results show that ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming orthogonality between dimensions. More importantly, models trained with ODiS-selected data significantly outperform other baselines on downstream benchmarks, highlighting the necessity of orthogonal, diversity-aware data selection for LLMs.
PDF31October 23, 2025