ChatPaper.aiChatPaper

Разглушивая мощь данных цунами: Комплексный обзор оценки и выбора данных для настройки инструкций языковых моделей.

Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models

August 4, 2024
Авторы: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI

Аннотация

Настройка инструкций играет критическую роль в выравнивании больших языковых моделей (LLM) с предпочтениями человека. Несмотря на огромное количество открытых наборов данных инструкций, наивное обучение LLM на всех существующих инструкциях может быть неоптимальным и практически невозможным. Для выявления наиболее полезных точек данных были предложены методы оценки и выбора данных в областях обработки естественного языка (NLP) и глубокого обучения. Однако в контексте настройки инструкций по-прежнему существует пробел в знаниях о том, какие виды метрик оценки данных могут быть использованы и как они могут быть интегрированы в механизм выбора. Для заполнения этого пробела мы представляем всесторонний обзор существующей литературы по оценке и выбору данных, особенно для настройки инструкций LLM. Мы систематизируем все применимые методы на основе качества, разнообразия и важности, где структурирована унифицированная, детализированная таксономия. Для каждой категории подробно описаны репрезентативные методы, чтобы описать ландшафт соответствующих исследований. Кроме того, проводится сравнение последних методов на основе их официально сообщенных результатов для обеспечения глубоких обсуждений их ограничений. Наконец, мы подводим итоги открытых проблем и предлагаем перспективные направления для будущих исследований. Все связанные материалы доступны по ссылке https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering.

Summary

AI-Generated Summary

PDF194November 28, 2024