Como Treinar LLMs Eficientes em Dados
How to Train Data-Efficient LLMs
February 15, 2024
Autores: Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng
cs.AI
Resumo
O treinamento de grandes modelos de linguagem (LLMs) é caro. Neste artigo, estudamos abordagens eficientes em termos de dados para o pré-treinamento de LLMs, ou seja, técnicas que visam otimizar a fronteira de Pareto entre a qualidade do modelo e o consumo de recursos/dados de treinamento. Buscamos entender as compensações associadas a rotinas de seleção de dados baseadas em (i) estimativas de qualidade de dados que são caras de calcular, e (ii) maximização de medidas de cobertura e diversidade no espaço de características. Nossa primeira técnica, Ask-LLM, aproveita as capacidades de raciocínio zero-shot de LLMs ajustados por instruções para avaliar diretamente a qualidade de um exemplo de treinamento. Para atingir a cobertura, propomos a amostragem por Densidade, que modela a distribuição dos dados para selecionar uma amostra diversificada. Em nossa comparação de 19 amostradores, envolvendo centenas de tarefas de avaliação e execuções de pré-treinamento, descobrimos que Ask-LLM e Densidade são os melhores métodos em suas respectivas categorias. A amostragem por cobertura pode recuperar o desempenho dos dados completos, enquanto os modelos treinados com dados do Ask-LLM consistentemente superam o treinamento com todos os dados — mesmo quando rejeitamos 90% do conjunto de dados original, enquanto convergem até 70% mais rápido.
English
The training of large language models (LLMs) is expensive. In this paper, we
study data-efficient approaches for pre-training LLMs, i.e., techniques that
aim to optimize the Pareto frontier of model quality and training resource/data
consumption. We seek to understand the tradeoffs associated with data selection
routines based on (i) expensive-to-compute data-quality estimates, and (ii)
maximization of coverage and diversity-based measures in the feature space. Our
first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of
instruction-tuned LLMs to directly assess the quality of a training example. To
target coverage, we propose Density sampling, which models the data
distribution to select a diverse sample. In our comparison of 19 samplers,
involving hundreds of evaluation tasks and pre-training runs, we find that
Ask-LLM and Density are the best methods in their respective categories.
Coverage sampling can recover the performance of the full data, while models
trained on Ask-LLM data consistently outperform full-data training -- even when
we reject 90% of the original dataset, while converging up to 70% faster.