Seleção Eficiente de Dados em Escala por meio de Destilação de Influência

Resumo

A seleção eficaz de dados é crucial para o treinamento eficiente de modelos de linguagem de grande escala (LLMs) modernos. Este artigo introduz o Distillation de Influência, uma nova estrutura matematicamente fundamentada para seleção de dados que emprega informações de segunda ordem para ponderar de forma ideal as amostras de treinamento. Ao destilar a influência de cada amostra em uma distribuição alvo, nosso método atribui pesos específicos ao modelo que são usados para selecionar dados de treinamento para o ajuste fino de LLMs, direcionando-o para um desempenho robusto no domínio alvo. Derivamos esses pesos ideais tanto para o Gradiente Descendente quanto para os otimizadores Adam. Para garantir escalabilidade e reduzir o custo computacional, propomos uma aproximação baseada em pontos de referência: a influência é calculada com precisão para um pequeno subconjunto de amostras "de referência" e então propagada eficientemente para todas as outras amostras para determinar seus pesos. Validamos o Distillation de Influência aplicando-o ao ajuste de instruções no conjunto de dados Tulu V2, visando uma variedade de tarefas, incluindo GSM8k, SQuAD e MMLU, em vários modelos das famílias Llama e Qwen. Os experimentos mostram que o Distillation de Influência iguala ou supera o desempenho de ponta enquanto alcança uma seleção até 3,5 vezes mais rápida.

English

Effective data selection is critical for efficient training of modern Large Language Models (LLMs). This paper introduces Influence Distillation, a novel, mathematically-justified framework for data selection that employs second-order information to optimally weight training samples. By distilling each sample's influence on a target distribution, our method assigns model-specific weights that are used to select training data for LLM fine-tuning, guiding it toward strong performance on the target domain. We derive these optimal weights for both Gradient Descent and Adam optimizers. To ensure scalability and reduce computational cost, we propose a landmark-based approximation: influence is precisely computed for a small subset of "landmark" samples and then efficiently propagated to all other samples to determine their weights. We validate Influence Distillation by applying it to instruction tuning on the Tulu V2 dataset, targeting a range of tasks including GSM8k, SQuAD, and MMLU, across several models from the Llama and Qwen families. Experiments show that Influence Distillation matches or outperforms state-of-the-art performance while achieving up to 3.5times faster selection.

Seleção Eficiente de Dados em Escala por meio de Destilação de Influência

Efficient Data Selection at Scale via Influence Distillation

Resumo

Support