Seleção Preditiva de Dados: Os Dados que Prevêem São os Dados que EnsinamPredictive Data Selection: The Data That Predicts Is the Data That
Teaches
O pré-treinamento de modelos de linguagem envolve o treinamento em extensos corpora, onde a qualidade dos dados desempenha um papel fundamental. Neste trabalho, buscamos estimar diretamente a contribuição dos dados durante o pré-treinamento e selecionar os dados de pré-treinamento de maneira eficiente. Especificamente, nos inspiramos em descobertas recentes que mostram que a eficiência de compressão (ou seja, a perda normalizada) de diversos modelos em determinados textos está fortemente correlacionada com seu desempenho em tarefas subsequentes, quando o domínio do texto está alinhado com o benchmark utilizado (Huang et al., 2024). Com base nessa observação, formulamos a hipótese de que os dados em que as perdas do modelo são preditivas de habilidades subsequentes também contribuem efetivamente para o aprendizado. Para aproveitar essa percepção, introduzimos a seleção de dados baseada na Força Preditiva dos dados (PreSelect), um método leve e eficiente de seleção de dados que requer o treinamento e a implantação apenas de um avaliador baseado em fastText. Por meio de experimentos abrangentes com modelos de 1B e 3B de parâmetros, demonstramos que modelos treinados com 30B de tokens selecionados com PreSelect superam o desempenho de uma linha de base padrão treinada com 300B de tokens, alcançando uma redução de 10x nos requisitos de computação. Além disso, o PreSelect supera significativamente outras linhas de base competitivas de seleção de dados, como DCLM e FineWeb-Edu, em uma escala de modelos de 3B treinados com 100B de tokens. Disponibilizamos publicamente nosso avaliador de seleção de dados treinado, juntamente com os conjuntos de dados curados, em https://github.com/hkust-nlp/PreSelect.