ChatPaper.aiChatPaper

Apprendre des meilleurs, mais différemment : Une révision axée sur la diversité dans la sélection des données

Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

October 21, 2025
papers.authors: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
cs.AI

papers.abstract

Des données de pré-entraînement de haute qualité sont cruciales pour les grands modèles de langage, où la qualité reflète la fiabilité factuelle et la valeur sémantique, tandis que la diversité assure une couverture étendue et une hétérogénéité distributionnelle. Les approches existantes reposent généralement sur une sélection basée sur des scores unidimensionnels ou multidimensionnels. Cependant, la sélection directe des données ayant les scores les plus élevés dégrade souvent les performances, et un échantillonnage à partir d'une plage plus large est nécessaire pour retrouver des résultats satisfaisants. Cette non-monotonie entre les scores des ensembles de données et les résultats des benchmarks en aval révèle un biais fondamental : les méthodes basées sur les scores fusionnent les dimensions corrélées, ce qui fait que les données ayant les scores les plus élevés semblent de haute qualité tout en négligeant systématiquement la diversité. Nous soutenons que pour garantir la diversité, il est nécessaire de décomposer les métriques corrélées en dimensions de caractéristiques orthogonales, à partir desquelles les données ayant les scores les plus élevés peuvent être directement sélectionnées. Par conséquent, nous avons proposé l'algorithme de sélection Orthogonal Diversity-Aware Selection (ODiS), qui préserve à la fois la qualité et la diversité lors de la sélection des données. Tout d'abord, ODiS évalue les données selon plusieurs dimensions, couvrant la qualité linguistique, la qualité des connaissances et la difficulté de compréhension. Les scores multidimensionnels sont ensuite décorrélés via une analyse en composantes principales (PCA), produisant ainsi des dimensions d'évaluation orthogonales. Pour chaque dimension, un scoreur basé sur Roberta est entraîné pour régresser les données sur les scores projetés par PCA, permettant une inférence scalable sur de grands corpus. Enfin, ODiS construit l'ensemble de données d'entraînement en sélectionnant les données ayant les scores les plus élevés dans chaque dimension orthogonale, assurant ainsi à la fois la qualité et la diversité. Les résultats empiriques montrent que les données sélectionnées par ODiS présentent moins de 2 % de chevauchement inter-dimensionnel, confirmant l'orthogonalité entre les dimensions. Plus important encore, les modèles entraînés avec les données sélectionnées par ODiS surpassent significativement les autres méthodes de référence sur les benchmarks en aval, soulignant la nécessité d'une sélection de données orthogonale et consciente de la diversité pour les grands modèles de langage.
English
High-quality pre-training data is crutial for large language models, where quality captures factual reliability and semantic value, and diversity ensures broad coverage and distributional heterogeneity. Existing approaches typically rely on single or multiple-dimensional score-based selection. However, directly selecting top-scored data often degrades performance, and sampling from a broader range is required to recover results. The above non-monotonicity between dataset scores and downstream benchmark results reveals a fundamental bias: score-based methods collapse correlated dimensions, causing top-scored data to appear high-quality while systematically overlooking diversity. We argue that ensuring diversity requires decomposing correlated metrics into orthogonal feature dimensions, from which the top-scored data can be directly selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection (ODiS) algorithm, which preserves both quality and diversity during data selection. First, ODiS evaluates data from multiple dimensions, covering language quality, knowledge quality, and comprehension difficulty. The multi-dimensional scores are then decorrelated via Principal Component Analysis (PCA), yielding orthogonal evaluation dimensions. For each dimension, a Roberta-based scorer is trained to regress the data onto PCA-projected scores, enabling scalable inference on large corpora. Finally, ODiS constructs the training dataset by selecting top-scored data within each orthogonal dimension, thereby ensuring both quality and diversity. Empirical results show that ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming orthogonality between dimensions. More importantly, models trained with ODiS-selected data significantly outperform other baselines on downstream benchmarks, highlighting the necessity of orthogonal, diversity-aware data selection for LLMs.
PDF31October 23, 2025