Libérer la puissance du tsunami de données : une étude approfondie sur l'évaluation et la sélection des données pour le réglage par instruction des modèles de langage
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models
August 4, 2024
Auteurs: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI
Résumé
Le réglage par instruction joue un rôle crucial dans l'alignement des grands modèles de langage (LLMs) avec les préférences humaines. Malgré la quantité considérable de jeux de données d'instructions disponibles, entraîner naïvement un LLM sur toutes les instructions existantes peut ne pas être optimal ni pratique. Pour identifier les points de données les plus bénéfiques, des méthodes d'évaluation et de sélection des données ont été proposées dans les domaines du traitement du langage naturel (NLP) et de l'apprentissage profond. Cependant, dans le contexte du réglage par instruction, il existe encore un manque de connaissances sur les types de métriques d'évaluation des données pouvant être utilisées et sur la manière dont elles peuvent être intégrées dans le mécanisme de sélection. Pour combler cette lacune, nous présentons une revue exhaustive de la littérature existante sur l'évaluation et la sélection des données, en particulier pour le réglage par instruction des LLMs. Nous catégorisons systématiquement toutes les méthodes applicables en méthodes basées sur la qualité, la diversité et l'importance, en structurant une taxonomie unifiée et fine. Pour chaque catégorie, les méthodes représentatives sont détaillées pour décrire le paysage de la recherche pertinente. De plus, une comparaison entre les dernières méthodes est effectuée sur la base de leurs résultats officiellement rapportés, afin de fournir des discussions approfondies sur leurs limites. Enfin, nous résumons les défis ouverts et proposons des pistes prometteuses pour les études futures. Tous les contenus associés sont disponibles à l'adresse https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models
(LLMs) with human preference. Despite the vast amount of open instruction
datasets, naively training a LLM on all existing instructions may not be
optimal and practical. To pinpoint the most beneficial datapoints, data
assessment and selection methods have been proposed in the fields of natural
language processing (NLP) and deep learning. However, under the context of
instruction tuning, there still exists a gap in knowledge on what kind of data
evaluation metrics can be employed and how they can be integrated into the
selection mechanism. To bridge this gap, we present a comprehensive review on
existing literature of data assessment and selection especially for instruction
tuning of LLMs. We systematically categorize all applicable methods into
quality-based, diversity-based, and importance-based ones where a unified,
fine-grained taxonomy is structured. For each category, representative methods
are elaborated to describe the landscape of relevant research. In addition,
comparison between latest methods is conducted on their officially reported
results to provide in-depth discussions on their limitations. Finally, we
summarize the open challenges and propose the promosing avenues for future
studies. All related contents are available at
https://github.com/yuleiqin/fantastic-data-engineering.Summary
AI-Generated Summary