Aprendendo com os Melhores, de Forma Diferente: Uma Reavaliação Orientada pela Diversidade na Seleção de Dados
Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection
October 21, 2025
Autores: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
cs.AI
Resumo
Dados de pré-treinamento de alta qualidade são cruciais para modelos de linguagem de grande escala, onde a qualidade captura confiabilidade factual e valor semântico, e a diversidade garante cobertura ampla e heterogeneidade distribucional. As abordagens existentes geralmente dependem de seleção baseada em pontuação uni ou multidimensional. No entanto, a seleção direta dos dados com maior pontuação frequentemente degrada o desempenho, sendo necessário amostrar de uma faixa mais ampla para recuperar os resultados. A não monotonicidade observada entre as pontuações do conjunto de dados e os resultados de benchmarks subsequentes revela um viés fundamental: métodos baseados em pontuação colapsam dimensões correlacionadas, fazendo com que os dados com maior pontuação pareçam de alta qualidade enquanto sistematicamente negligenciam a diversidade. Argumentamos que garantir a diversidade requer decompor métricas correlacionadas em dimensões de características ortogonais, a partir das quais os dados com maior pontuação podem ser diretamente selecionados. Portanto, propomos o algoritmo de Seleção Ortogonal com Consciência de Diversidade (ODiS), que preserva tanto a qualidade quanto a diversidade durante a seleção de dados. Primeiro, o ODiS avalia os dados em múltiplas dimensões, abrangendo qualidade linguística, qualidade do conhecimento e dificuldade de compreensão. As pontuações multidimensionais são então descorrelacionadas via Análise de Componentes Principais (PCA), resultando em dimensões de avaliação ortogonais. Para cada dimensão, um avaliador baseado em Roberta é treinado para regredir os dados nas pontuações projetadas pelo PCA, permitindo inferência escalável em grandes corpora. Finalmente, o ODiS constrói o conjunto de treinamento selecionando os dados com maior pontuação dentro de cada dimensão ortogonal, garantindo assim qualidade e diversidade. Resultados empíricos mostram que os dados selecionados pelo ODiS exibem menos de 2% de sobreposição inter-dimensional, confirmando a ortogonalidade entre as dimensões. Mais importante, modelos treinados com dados selecionados pelo ODiS superam significativamente outras baselines em benchmarks subsequentes, destacando a necessidade de seleção de dados ortogonal e consciente da diversidade para LLMs.
English
High-quality pre-training data is crutial for large language models, where
quality captures factual reliability and semantic value, and diversity ensures
broad coverage and distributional heterogeneity. Existing approaches typically
rely on single or multiple-dimensional score-based selection. However, directly
selecting top-scored data often degrades performance, and sampling from a
broader range is required to recover results. The above non-monotonicity
between dataset scores and downstream benchmark results reveals a fundamental
bias: score-based methods collapse correlated dimensions, causing top-scored
data to appear high-quality while systematically overlooking diversity. We
argue that ensuring diversity requires decomposing correlated metrics into
orthogonal feature dimensions, from which the top-scored data can be directly
selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection
(ODiS) algorithm, which preserves both quality and diversity during data
selection. First, ODiS evaluates data from multiple dimensions, covering
language quality, knowledge quality, and comprehension difficulty. The
multi-dimensional scores are then decorrelated via Principal Component Analysis
(PCA), yielding orthogonal evaluation dimensions. For each dimension, a
Roberta-based scorer is trained to regress the data onto PCA-projected scores,
enabling scalable inference on large corpora. Finally, ODiS constructs the
training dataset by selecting top-scored data within each orthogonal dimension,
thereby ensuring both quality and diversity. Empirical results show that
ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming
orthogonality between dimensions. More importantly, models trained with
ODiS-selected data significantly outperform other baselines on downstream
benchmarks, highlighting the necessity of orthogonal, diversity-aware data
selection for LLMs.