ChatPaper.aiChatPaper

Aprendiendo de los Mejores, de Manera Diferente: Una Revisión Impulsada por la Diversidad en la Selección de Datos

Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

October 21, 2025
Autores: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
cs.AI

Resumen

Los datos de preentrenamiento de alta calidad son cruciales para los modelos de lenguaje a gran escala, donde la calidad captura la fiabilidad factual y el valor semántico, y la diversidad asegura una cobertura amplia y heterogeneidad distribucional. Los enfoques existentes suelen depender de una selección basada en puntuaciones de una o múltiples dimensiones. Sin embargo, seleccionar directamente los datos con las puntuaciones más altas a menudo degrada el rendimiento, y es necesario muestrear de un rango más amplio para recuperar los resultados. La no monotonicidad observada entre las puntuaciones del conjunto de datos y los resultados de los benchmarks posteriores revela un sesgo fundamental: los métodos basados en puntuaciones colapsan dimensiones correlacionadas, haciendo que los datos con puntuaciones más altas parezcan de alta calidad mientras se pasa por alto sistemáticamente la diversidad. Argumentamos que garantizar la diversidad requiere descomponer las métricas correlacionadas en dimensiones de características ortogonales, de las cuales se pueden seleccionar directamente los datos con las puntuaciones más altas. Por lo tanto, propusimos el algoritmo de Selección Consciente de Diversidad Ortogonal (ODiS, por sus siglas en inglés), que preserva tanto la calidad como la diversidad durante la selección de datos. Primero, ODiS evalúa los datos desde múltiples dimensiones, cubriendo la calidad del lenguaje, la calidad del conocimiento y la dificultad de comprensión. Luego, las puntuaciones multidimensionales se decorrelacionan mediante Análisis de Componentes Principales (PCA), obteniendo dimensiones de evaluación ortogonales. Para cada dimensión, se entrena un evaluador basado en Roberta para regresar los datos sobre las puntuaciones proyectadas por PCA, permitiendo una inferencia escalable en grandes corpus. Finalmente, ODiS construye el conjunto de datos de entrenamiento seleccionando los datos con las puntuaciones más altas dentro de cada dimensión ortogonal, asegurando así tanto la calidad como la diversidad. Los resultados empíricos muestran que los datos seleccionados por ODiS exhiben menos del 2% de superposición entre dimensiones, confirmando la ortogonalidad entre las dimensiones. Más importante aún, los modelos entrenados con datos seleccionados por ODiS superan significativamente a otras líneas de base en los benchmarks posteriores, destacando la necesidad de una selección de datos consciente de la diversidad y ortogonal para los modelos de lenguaje a gran escala.
English
High-quality pre-training data is crutial for large language models, where quality captures factual reliability and semantic value, and diversity ensures broad coverage and distributional heterogeneity. Existing approaches typically rely on single or multiple-dimensional score-based selection. However, directly selecting top-scored data often degrades performance, and sampling from a broader range is required to recover results. The above non-monotonicity between dataset scores and downstream benchmark results reveals a fundamental bias: score-based methods collapse correlated dimensions, causing top-scored data to appear high-quality while systematically overlooking diversity. We argue that ensuring diversity requires decomposing correlated metrics into orthogonal feature dimensions, from which the top-scored data can be directly selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection (ODiS) algorithm, which preserves both quality and diversity during data selection. First, ODiS evaluates data from multiple dimensions, covering language quality, knowledge quality, and comprehension difficulty. The multi-dimensional scores are then decorrelated via Principal Component Analysis (PCA), yielding orthogonal evaluation dimensions. For each dimension, a Roberta-based scorer is trained to regress the data onto PCA-projected scores, enabling scalable inference on large corpora. Finally, ODiS constructs the training dataset by selecting top-scored data within each orthogonal dimension, thereby ensuring both quality and diversity. Empirical results show that ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming orthogonality between dimensions. More importantly, models trained with ODiS-selected data significantly outperform other baselines on downstream benchmarks, highlighting the necessity of orthogonal, diversity-aware data selection for LLMs.
PDF31October 23, 2025