Die Entfesselung der Kraft des Daten-Tsunamis: Eine umfassende Untersuchung zur Datenerhebung und -auswahl für die Anpassung von Sprachmodellen.

papers.abstract

Die Feinabstimmung von Anweisungen spielt eine entscheidende Rolle bei der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Präferenzen. Trotz der großen Menge an offenen Anweisungsdatensätzen ist es möglicherweise nicht optimal und praktisch, ein LLM naiv auf allen vorhandenen Anweisungen zu trainieren. Um die vorteilhaftesten Datenpunkte zu ermitteln, wurden in den Bereichen der natürlichen Sprachverarbeitung (NLP) und des Deep Learning Datenbewertungs- und Auswahlmethoden vorgeschlagen. Unter dem Kontext der Anweisungsfeinabstimmung besteht jedoch immer noch eine Wissenslücke darüber, welche Art von Datenbewertungsmetriken verwendet werden können und wie sie in den Auswahlmechanismus integriert werden können. Um diese Lücke zu schließen, präsentieren wir eine umfassende Übersicht über die bestehende Literatur zur Datenbewertung und -auswahl, insbesondere für die Anweisungsfeinabstimmung von LLMs. Wir kategorisieren systematisch alle anwendbaren Methoden in qualitätsbasierte, diversitätsbasierte und bedeutungsbasierte Methoden, wobei eine vereinheitlichte, feingliedrige Taxonomie strukturiert wird. Für jede Kategorie werden repräsentative Methoden erläutert, um das Spektrum relevanter Forschung darzustellen. Darüber hinaus wird ein Vergleich zwischen den neuesten Methoden anhand ihrer offiziell gemeldeten Ergebnisse durchgeführt, um eingehende Diskussionen über ihre Einschränkungen zu bieten. Abschließend fassen wir die offenen Herausforderungen zusammen und schlagen vielversprechende Ansätze für zukünftige Studien vor. Alle relevanten Inhalte sind verfügbar unter https://github.com/yuleiqin/fantastic-data-engineering.

English

Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering.

Die Entfesselung der Kraft des Daten-Tsunamis: Eine umfassende Untersuchung zur Datenerhebung und -auswahl für die Anpassung von Sprachmodellen.

Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models

papers.abstract

Support