LLM2LLM: Усиление LLM с помощью нового итеративного улучшения данных
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
March 22, 2024
Авторы: Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
Аннотация
Предварительно обученные большие языковые модели (LLM) в настоящее время являются передовыми в решении подавляющего большинства задач обработки естественного языка. В то время как многие прикладные приложения по-прежнему требуют настройки для достижения удовлетворительного уровня производительности, многие из них находятся в режиме низких данных, что затрудняет настройку. Для решения этой проблемы мы предлагаем LLM2LLM, целевую и итеративную стратегию аугментации данных, которая использует учительскую LLM для улучшения небольшого исходного набора данных путем добавления дополнительных данных, которые могут быть использованы для настройки на конкретную задачу. LLM2LLM (1) настраивает базовую студенческую LLM на исходных исходных данных, (2) оценивает и извлекает данные, на которых модель ошибается, и (3) использует учительскую LLM для генерации синтетических данных на основе этих неправильных данных, которые затем добавляются обратно в обучающие данные. Этот подход усиливает сигнал от неправильно предсказанных данных LLM во время обучения и вновь интегрирует их в набор данных для сосредоточения на более сложных примерах для LLM. Наши результаты показывают, что LLM2LLM значительно улучшает производительность LLM в режиме низких данных, превосходя как традиционную настройку, так и другие базовые методы аугментации данных. LLM2LLM снижает зависимость от трудоемкой кураторской работы с данными и открывает путь к более масштабным и производительным решениям LLM, позволяя нам решать задачи и области с ограниченными данными. Мы достигаем улучшений до 24,2% на наборе данных GSM8K, 32,6% на CaseHOLD, 32,0% на SNIPS, 52,6% на TREC и 39,8% на SST-2 по сравнению с обычной настройкой в режиме низких данных с использованием студенческой модели LLaMA2-7B.
English
Pretrained large language models (LLMs) are currently state-of-the-art for
solving the vast majority of natural language processing tasks. While many
real-world applications still require fine-tuning to reach satisfactory levels
of performance, many of them are in the low-data regime, making fine-tuning
challenging. To address this, we propose LLM2LLM, a targeted and iterative data
augmentation strategy that uses a teacher LLM to enhance a small seed dataset
by augmenting additional data that can be used for fine-tuning on a specific
task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data,
(2) evaluates and extracts data points that the model gets wrong, and (3) uses
a teacher LLM to generate synthetic data based on these incorrect data points,
which are then added back into the training data. This approach amplifies the
signal from incorrectly predicted data points by the LLM during training and
reintegrates them into the dataset to focus on more challenging examples for
the LLM. Our results show that LLM2LLM significantly enhances the performance
of LLMs in the low-data regime, outperforming both traditional fine-tuning and
other data augmentation baselines. LLM2LLM reduces the dependence on
labor-intensive data curation and paves the way for more scalable and
performant LLM solutions, allowing us to tackle data-constrained domains and
tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on
CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular
fine-tuning in the low-data regime using a LLaMA2-7B student model.Summary
AI-Generated Summary