Разглушивая мощь данных цунами: Комплексный обзор оценки и выбора данных для настройки инструкций языковых моделей.
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models
August 4, 2024
Авторы: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI
Аннотация
Настройка инструкций играет критическую роль в выравнивании больших языковых моделей (LLM) с предпочтениями человека. Несмотря на огромное количество открытых наборов данных инструкций, наивное обучение LLM на всех существующих инструкциях может быть неоптимальным и практически невозможным. Для выявления наиболее полезных точек данных были предложены методы оценки и выбора данных в областях обработки естественного языка (NLP) и глубокого обучения. Однако в контексте настройки инструкций по-прежнему существует пробел в знаниях о том, какие виды метрик оценки данных могут быть использованы и как они могут быть интегрированы в механизм выбора. Для заполнения этого пробела мы представляем всесторонний обзор существующей литературы по оценке и выбору данных, особенно для настройки инструкций LLM. Мы систематизируем все применимые методы на основе качества, разнообразия и важности, где структурирована унифицированная, детализированная таксономия. Для каждой категории подробно описаны репрезентативные методы, чтобы описать ландшафт соответствующих исследований. Кроме того, проводится сравнение последних методов на основе их официально сообщенных результатов для обеспечения глубоких обсуждений их ограничений. Наконец, мы подводим итоги открытых проблем и предлагаем перспективные направления для будущих исследований. Все связанные материалы доступны по ссылке https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models
(LLMs) with human preference. Despite the vast amount of open instruction
datasets, naively training a LLM on all existing instructions may not be
optimal and practical. To pinpoint the most beneficial datapoints, data
assessment and selection methods have been proposed in the fields of natural
language processing (NLP) and deep learning. However, under the context of
instruction tuning, there still exists a gap in knowledge on what kind of data
evaluation metrics can be employed and how they can be integrated into the
selection mechanism. To bridge this gap, we present a comprehensive review on
existing literature of data assessment and selection especially for instruction
tuning of LLMs. We systematically categorize all applicable methods into
quality-based, diversity-based, and importance-based ones where a unified,
fine-grained taxonomy is structured. For each category, representative methods
are elaborated to describe the landscape of relevant research. In addition,
comparison between latest methods is conducted on their officially reported
results to provide in-depth discussions on their limitations. Finally, we
summarize the open challenges and propose the promosing avenues for future
studies. All related contents are available at
https://github.com/yuleiqin/fantastic-data-engineering.Summary
AI-Generated Summary