Die Entfesselung der Kraft des Daten-Tsunamis: Eine umfassende Untersuchung zur Datenerhebung und -auswahl für die Anpassung von Sprachmodellen.
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models
August 4, 2024
Autoren: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI
Zusammenfassung
Die Feinabstimmung von Anweisungen spielt eine entscheidende Rolle bei der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Präferenzen. Trotz der großen Menge an offenen Anweisungsdatensätzen ist es möglicherweise nicht optimal und praktisch, ein LLM naiv auf allen vorhandenen Anweisungen zu trainieren. Um die vorteilhaftesten Datenpunkte zu ermitteln, wurden in den Bereichen der natürlichen Sprachverarbeitung (NLP) und des Deep Learning Datenbewertungs- und Auswahlmethoden vorgeschlagen. Unter dem Kontext der Anweisungsfeinabstimmung besteht jedoch immer noch eine Wissenslücke darüber, welche Art von Datenbewertungsmetriken verwendet werden können und wie sie in den Auswahlmechanismus integriert werden können. Um diese Lücke zu schließen, präsentieren wir eine umfassende Übersicht über die bestehende Literatur zur Datenbewertung und -auswahl, insbesondere für die Anweisungsfeinabstimmung von LLMs. Wir kategorisieren systematisch alle anwendbaren Methoden in qualitätsbasierte, diversitätsbasierte und bedeutungsbasierte Methoden, wobei eine vereinheitlichte, feingliedrige Taxonomie strukturiert wird. Für jede Kategorie werden repräsentative Methoden erläutert, um das Spektrum relevanter Forschung darzustellen. Darüber hinaus wird ein Vergleich zwischen den neuesten Methoden anhand ihrer offiziell gemeldeten Ergebnisse durchgeführt, um eingehende Diskussionen über ihre Einschränkungen zu bieten. Abschließend fassen wir die offenen Herausforderungen zusammen und schlagen vielversprechende Ansätze für zukünftige Studien vor. Alle relevanten Inhalte sind verfügbar unter https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models
(LLMs) with human preference. Despite the vast amount of open instruction
datasets, naively training a LLM on all existing instructions may not be
optimal and practical. To pinpoint the most beneficial datapoints, data
assessment and selection methods have been proposed in the fields of natural
language processing (NLP) and deep learning. However, under the context of
instruction tuning, there still exists a gap in knowledge on what kind of data
evaluation metrics can be employed and how they can be integrated into the
selection mechanism. To bridge this gap, we present a comprehensive review on
existing literature of data assessment and selection especially for instruction
tuning of LLMs. We systematically categorize all applicable methods into
quality-based, diversity-based, and importance-based ones where a unified,
fine-grained taxonomy is structured. For each category, representative methods
are elaborated to describe the landscape of relevant research. In addition,
comparison between latest methods is conducted on their officially reported
results to provide in-depth discussions on their limitations. Finally, we
summarize the open challenges and propose the promosing avenues for future
studies. All related contents are available at
https://github.com/yuleiqin/fantastic-data-engineering.Summary
AI-Generated Summary