ChatPaper.aiChatPaper

Leren van de Besten, maar Anders: Een Diversiteit-Gedreven Heroverweging van Dataselectie

Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

October 21, 2025
Auteurs: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
cs.AI

Samenvatting

Hoogwaardige pre-trainingsgegevens zijn cruciaal voor grote taalmodelen, waarbij kwaliteit verwijst naar feitelijke betrouwbaarheid en semantische waarde, en diversiteit zorgt voor brede dekking en distributieheterogeniteit. Bestaande benaderingen vertrouwen doorgaans op selectie op basis van scores in één of meerdere dimensies. Het direct selecteren van data met de hoogste scores leidt echter vaak tot prestatieverlies, en steekproeven uit een breder bereik zijn nodig om resultaten te herstellen. De bovengenoemde niet-monotone relatie tussen datasetscores en downstream benchmarkresultaten onthult een fundamentele bias: op scores gebaseerde methoden laten gecorreleerde dimensies samenvallen, waardoor data met de hoogste scores hoogwaardig lijken terwijl diversiteit systematisch over het hoofd wordt gezien. Wij stellen dat het waarborgen van diversiteit vereist dat gecorreleerde metrieken worden ontbonden in orthogonale featuredimensies, waaruit de data met de hoogste scores direct kan worden geselecteerd. Daarom hebben we het Orthogonal Diversity-Aware Selection (ODiS)-algoritme voorgesteld, dat zowel kwaliteit als diversiteit behoudt tijdens dataselectie. Ten eerste evalueert ODiS data vanuit meerdere dimensies, waaronder taal kwaliteit, kennis kwaliteit en begripsmoeilijkheid. De multidimensionale scores worden vervolgens gedecorreleerd via Principal Component Analysis (PCA), wat orthogonale evaluatiedimensies oplevert. Voor elke dimensie wordt een Roberta-gebaseerde scorer getraind om de data te regresseren op PCA-geprojecteerde scores, waardoor schaalbare inferentie op grote corpora mogelijk wordt. Ten slotte construeert ODiS de trainingsdataset door data met de hoogste scores binnen elke orthogonale dimensie te selecteren, waardoor zowel kwaliteit als diversiteit worden gewaarborgd. Empirische resultaten tonen aan dat door ODiS geselecteerde data minder dan 2% overlap tussen dimensies vertonen, wat de orthogonaliteit tussen dimensies bevestigt. Belangrijker is dat modellen getraind met door ODiS geselecteerde data significant beter presteren dan andere baselines op downstream benchmarks, wat het belang onderstreept van orthogonale, diversiteitsbewuste dataselectie voor LLM's.
English
High-quality pre-training data is crutial for large language models, where quality captures factual reliability and semantic value, and diversity ensures broad coverage and distributional heterogeneity. Existing approaches typically rely on single or multiple-dimensional score-based selection. However, directly selecting top-scored data often degrades performance, and sampling from a broader range is required to recover results. The above non-monotonicity between dataset scores and downstream benchmark results reveals a fundamental bias: score-based methods collapse correlated dimensions, causing top-scored data to appear high-quality while systematically overlooking diversity. We argue that ensuring diversity requires decomposing correlated metrics into orthogonal feature dimensions, from which the top-scored data can be directly selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection (ODiS) algorithm, which preserves both quality and diversity during data selection. First, ODiS evaluates data from multiple dimensions, covering language quality, knowledge quality, and comprehension difficulty. The multi-dimensional scores are then decorrelated via Principal Component Analysis (PCA), yielding orthogonal evaluation dimensions. For each dimension, a Roberta-based scorer is trained to regress the data onto PCA-projected scores, enabling scalable inference on large corpora. Finally, ODiS constructs the training dataset by selecting top-scored data within each orthogonal dimension, thereby ensuring both quality and diversity. Empirical results show that ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming orthogonality between dimensions. More importantly, models trained with ODiS-selected data significantly outperform other baselines on downstream benchmarks, highlighting the necessity of orthogonal, diversity-aware data selection for LLMs.
PDF31October 23, 2025