LLM2LLM: Potenciando los LLM mediante una novedosa mejora iterativa de datos
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
March 22, 2024
Autores: Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
Resumen
Los modelos de lenguaje preentrenados de gran escala (LLMs, por sus siglas en inglés) son actualmente el estado del arte para resolver la gran mayoría de las tareas de procesamiento del lenguaje natural. Si bien muchas aplicaciones del mundo real aún requieren ajustes finos para alcanzar niveles satisfactorios de rendimiento, muchas de ellas se encuentran en regímenes de datos limitados, lo que hace que el ajuste fino sea un desafío. Para abordar esto, proponemos LLM2LLM, una estrategia de aumento de datos dirigida e iterativa que utiliza un LLM maestro para mejorar un pequeño conjunto de datos inicial mediante la generación de datos adicionales que pueden usarse para el ajuste fino en una tarea específica. LLM2LLM (1) ajusta un LLM estudiante de referencia en los datos iniciales, (2) evalúa y extrae los puntos de datos que el modelo predice incorrectamente, y (3) utiliza un LLM maestro para generar datos sintéticos basados en estos puntos incorrectos, los cuales se añaden nuevamente al conjunto de entrenamiento. Este enfoque amplifica la señal de los puntos de datos mal predichos por el LLM durante el entrenamiento y los reintegra en el conjunto de datos para enfocarse en ejemplos más desafiantes para el LLM. Nuestros resultados muestran que LLM2LLM mejora significativamente el rendimiento de los LLMs en regímenes de datos limitados, superando tanto el ajuste fino tradicional como otras técnicas de aumento de datos. LLM2LLM reduce la dependencia de la curación de datos intensiva en mano de obra y allana el camino para soluciones de LLM más escalables y eficientes, permitiéndonos abordar dominios y tareas con limitaciones de datos. Logramos mejoras de hasta un 24.2% en el conjunto de datos GSM8K, 32.6% en CaseHOLD, 32.0% en SNIPS, 52.6% en TREC y 39.8% en SST-2 en comparación con el ajuste fino regular en regímenes de datos limitados utilizando un modelo estudiante LLaMA2-7B.
English
Pretrained large language models (LLMs) are currently state-of-the-art for
solving the vast majority of natural language processing tasks. While many
real-world applications still require fine-tuning to reach satisfactory levels
of performance, many of them are in the low-data regime, making fine-tuning
challenging. To address this, we propose LLM2LLM, a targeted and iterative data
augmentation strategy that uses a teacher LLM to enhance a small seed dataset
by augmenting additional data that can be used for fine-tuning on a specific
task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data,
(2) evaluates and extracts data points that the model gets wrong, and (3) uses
a teacher LLM to generate synthetic data based on these incorrect data points,
which are then added back into the training data. This approach amplifies the
signal from incorrectly predicted data points by the LLM during training and
reintegrates them into the dataset to focus on more challenging examples for
the LLM. Our results show that LLM2LLM significantly enhances the performance
of LLMs in the low-data regime, outperforming both traditional fine-tuning and
other data augmentation baselines. LLM2LLM reduces the dependence on
labor-intensive data curation and paves the way for more scalable and
performant LLM solutions, allowing us to tackle data-constrained domains and
tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on
CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular
fine-tuning in the low-data regime using a LLaMA2-7B student model.Summary
AI-Generated Summary