ChatPaper.aiChatPaper

Учимся у лучших, но иначе: переосмысление выбора данных через призму разнообразия

Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

October 21, 2025
Авторы: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
cs.AI

Аннотация

Высококачественные данные для предварительного обучения имеют решающее значение для больших языковых моделей, где качество охватывает фактологическую надежность и семантическую ценность, а разнообразие обеспечивает широкий охват и распределительную неоднородность. Существующие подходы обычно полагаются на одно- или многомерный отбор на основе оценок. Однако прямой выбор данных с наивысшими оценками часто ухудшает производительность, и требуется выборка из более широкого диапазона для восстановления результатов. Указанная немонотонность между оценками набора данных и результатами на эталонных тестах выявляет фундаментальное смещение: методы, основанные на оценках, объединяют коррелированные измерения, что приводит к тому, что данные с наивысшими оценками кажутся высококачественными, но систематически упускают разнообразие. Мы утверждаем, что обеспечение разнообразия требует декомпозиции коррелированных метрик на ортогональные измерения признаков, из которых можно напрямую выбирать данные с наивысшими оценками. Поэтому мы предложили алгоритм Orthogonal Diversity-Aware Selection (ODiS), который сохраняет как качество, так и разнообразие при отборе данных. Во-первых, ODiS оценивает данные по нескольким измерениям, охватывая качество языка, качество знаний и сложность понимания. Многомерные оценки затем декоррелируются с помощью метода главных компонент (PCA), что дает ортогональные измерения оценки. Для каждого измерения обучается модель на основе Roberta для регрессии данных на PCA-проектированные оценки, что позволяет масштабировать вывод на большие корпуса. Наконец, ODiS формирует обучающий набор данных, выбирая данные с наивысшими оценками в каждом ортогональном измерении, тем самым обеспечивая как качество, так и разнообразие. Эмпирические результаты показывают, что данные, отобранные с помощью ODiS, имеют менее 2% перекрытия между измерениями, подтверждая ортогональность измерений. Что более важно, модели, обученные на данных, отобранных с помощью ODiS, значительно превосходят другие базовые подходы на эталонных тестах, подчеркивая необходимость ортогонального, учитывающего разнообразие отбора данных для больших языковых моделей.
English
High-quality pre-training data is crutial for large language models, where quality captures factual reliability and semantic value, and diversity ensures broad coverage and distributional heterogeneity. Existing approaches typically rely on single or multiple-dimensional score-based selection. However, directly selecting top-scored data often degrades performance, and sampling from a broader range is required to recover results. The above non-monotonicity between dataset scores and downstream benchmark results reveals a fundamental bias: score-based methods collapse correlated dimensions, causing top-scored data to appear high-quality while systematically overlooking diversity. We argue that ensuring diversity requires decomposing correlated metrics into orthogonal feature dimensions, from which the top-scored data can be directly selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection (ODiS) algorithm, which preserves both quality and diversity during data selection. First, ODiS evaluates data from multiple dimensions, covering language quality, knowledge quality, and comprehension difficulty. The multi-dimensional scores are then decorrelated via Principal Component Analysis (PCA), yielding orthogonal evaluation dimensions. For each dimension, a Roberta-based scorer is trained to regress the data onto PCA-projected scores, enabling scalable inference on large corpora. Finally, ODiS constructs the training dataset by selecting top-scored data within each orthogonal dimension, thereby ensuring both quality and diversity. Empirical results show that ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming orthogonality between dimensions. More importantly, models trained with ODiS-selected data significantly outperform other baselines on downstream benchmarks, highlighting the necessity of orthogonal, diversity-aware data selection for LLMs.
PDF31October 23, 2025