Selección Eficiente de Datos a Gran Escala mediante Destilación de Influencia

Resumen

La selección efectiva de datos es crucial para el entrenamiento eficiente de los modernos Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Este artículo presenta Distilación de Influencia, un marco novedoso y matemáticamente justificado para la selección de datos que emplea información de segundo orden para ponderar óptimamente las muestras de entrenamiento. Al destilar la influencia de cada muestra sobre una distribución objetivo, nuestro método asigna pesos específicos del modelo que se utilizan para seleccionar datos de entrenamiento para el ajuste fino de LLMs, guiándolo hacia un rendimiento sólido en el dominio objetivo. Derivamos estos pesos óptimos tanto para el descenso de gradiente como para el optimizador Adam. Para garantizar escalabilidad y reducir el costo computacional, proponemos una aproximación basada en puntos de referencia: la influencia se calcula con precisión para un pequeño subconjunto de muestras "de referencia" y luego se propaga eficientemente a todas las demás muestras para determinar sus pesos. Validamos la Distilación de Influencia aplicándola al ajuste por instrucciones en el conjunto de datos Tulu V2, enfocándonos en una variedad de tareas que incluyen GSM8k, SQuAD y MMLU, en varios modelos de las familias Llama y Qwen. Los experimentos muestran que la Distilación de Influencia iguala o supera el rendimiento de última generación mientras logra una selección hasta 3.5 veces más rápida.

English

Effective data selection is critical for efficient training of modern Large Language Models (LLMs). This paper introduces Influence Distillation, a novel, mathematically-justified framework for data selection that employs second-order information to optimally weight training samples. By distilling each sample's influence on a target distribution, our method assigns model-specific weights that are used to select training data for LLM fine-tuning, guiding it toward strong performance on the target domain. We derive these optimal weights for both Gradient Descent and Adam optimizers. To ensure scalability and reduce computational cost, we propose a landmark-based approximation: influence is precisely computed for a small subset of "landmark" samples and then efficiently propagated to all other samples to determine their weights. We validate Influence Distillation by applying it to instruction tuning on the Tulu V2 dataset, targeting a range of tasks including GSM8k, SQuAD, and MMLU, across several models from the Llama and Qwen families. Experiments show that Influence Distillation matches or outperforms state-of-the-art performance while achieving up to 3.5times faster selection.

Selección Eficiente de Datos a Gran Escala mediante Destilación de Influencia

Efficient Data Selection at Scale via Influence Distillation

Resumen

Support