Seleção Eficiente de Dados em Escala por meio de Destilação de Influência
Efficient Data Selection at Scale via Influence Distillation
May 25, 2025
Autores: Mahdi Nikdan, Vincent Cohen-Addad, Dan Alistarh, Vahab Mirrokni
cs.AI
Resumo
A seleção eficaz de dados é crucial para o treinamento eficiente de modelos de linguagem de grande escala (LLMs) modernos. Este artigo introduz o Distillation de Influência, uma nova estrutura matematicamente fundamentada para seleção de dados que emprega informações de segunda ordem para ponderar de forma ideal as amostras de treinamento. Ao destilar a influência de cada amostra em uma distribuição alvo, nosso método atribui pesos específicos ao modelo que são usados para selecionar dados de treinamento para o ajuste fino de LLMs, direcionando-o para um desempenho robusto no domínio alvo. Derivamos esses pesos ideais tanto para o Gradiente Descendente quanto para os otimizadores Adam. Para garantir escalabilidade e reduzir o custo computacional, propomos uma aproximação baseada em pontos de referência: a influência é calculada com precisão para um pequeno subconjunto de amostras "de referência" e então propagada eficientemente para todas as outras amostras para determinar seus pesos. Validamos o Distillation de Influência aplicando-o ao ajuste de instruções no conjunto de dados Tulu V2, visando uma variedade de tarefas, incluindo GSM8k, SQuAD e MMLU, em vários modelos das famílias Llama e Qwen. Os experimentos mostram que o Distillation de Influência iguala ou supera o desempenho de ponta enquanto alcança uma seleção até 3,5 vezes mais rápida.
English
Effective data selection is critical for efficient training of modern Large
Language Models (LLMs). This paper introduces Influence Distillation, a novel,
mathematically-justified framework for data selection that employs second-order
information to optimally weight training samples. By distilling each sample's
influence on a target distribution, our method assigns model-specific weights
that are used to select training data for LLM fine-tuning, guiding it toward
strong performance on the target domain. We derive these optimal weights for
both Gradient Descent and Adam optimizers. To ensure scalability and reduce
computational cost, we propose a landmark-based approximation:
influence is precisely computed for a small subset of "landmark" samples and
then efficiently propagated to all other samples to determine their weights. We
validate Influence Distillation by applying it to instruction tuning on the
Tulu V2 dataset, targeting a range of tasks including GSM8k, SQuAD, and MMLU,
across several models from the Llama and Qwen families. Experiments show that
Influence Distillation matches or outperforms state-of-the-art performance
while achieving up to 3.5times faster selection.