Selección Eficiente de Datos a Gran Escala mediante Destilación de Influencia
Efficient Data Selection at Scale via Influence Distillation
May 25, 2025
Autores: Mahdi Nikdan, Vincent Cohen-Addad, Dan Alistarh, Vahab Mirrokni
cs.AI
Resumen
La selección efectiva de datos es crucial para el entrenamiento eficiente de los modernos Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Este artículo presenta Distilación de Influencia, un marco novedoso y matemáticamente justificado para la selección de datos que emplea información de segundo orden para ponderar óptimamente las muestras de entrenamiento. Al destilar la influencia de cada muestra sobre una distribución objetivo, nuestro método asigna pesos específicos del modelo que se utilizan para seleccionar datos de entrenamiento para el ajuste fino de LLMs, guiándolo hacia un rendimiento sólido en el dominio objetivo. Derivamos estos pesos óptimos tanto para el descenso de gradiente como para el optimizador Adam. Para garantizar escalabilidad y reducir el costo computacional, proponemos una aproximación basada en puntos de referencia: la influencia se calcula con precisión para un pequeño subconjunto de muestras "de referencia" y luego se propaga eficientemente a todas las demás muestras para determinar sus pesos. Validamos la Distilación de Influencia aplicándola al ajuste por instrucciones en el conjunto de datos Tulu V2, enfocándonos en una variedad de tareas que incluyen GSM8k, SQuAD y MMLU, en varios modelos de las familias Llama y Qwen. Los experimentos muestran que la Distilación de Influencia iguala o supera el rendimiento de última generación mientras logra una selección hasta 3.5 veces más rápida.
English
Effective data selection is critical for efficient training of modern Large
Language Models (LLMs). This paper introduces Influence Distillation, a novel,
mathematically-justified framework for data selection that employs second-order
information to optimally weight training samples. By distilling each sample's
influence on a target distribution, our method assigns model-specific weights
that are used to select training data for LLM fine-tuning, guiding it toward
strong performance on the target domain. We derive these optimal weights for
both Gradient Descent and Adam optimizers. To ensure scalability and reduce
computational cost, we propose a landmark-based approximation:
influence is precisely computed for a small subset of "landmark" samples and
then efficiently propagated to all other samples to determine their weights. We
validate Influence Distillation by applying it to instruction tuning on the
Tulu V2 dataset, targeting a range of tasks including GSM8k, SQuAD, and MMLU,
across several models from the Llama and Qwen families. Experiments show that
Influence Distillation matches or outperforms state-of-the-art performance
while achieving up to 3.5times faster selection.Summary
AI-Generated Summary