Het Benutten van de Kracht van de Data-Tsunami: Een Uitgebreid Onderzoek naar Data-Evaluatie en Selectie voor Instructieafstemming van Taalmodellen
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models
August 4, 2024
Auteurs: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI
Samenvatting
Instructie-afstemming speelt een cruciale rol bij het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren. Ondanks de enorme hoeveelheid open instructiedatasets, is het naïef trainen van een LLM op alle bestaande instructies niet optimaal en praktisch. Om de meest waardevolle datapunten te identificeren, zijn er methoden voor data-evaluatie en -selectie voorgesteld in de velden van natuurlijke taalverwerking (NLP) en deep learning. Echter, in de context van instructie-afstemming bestaat er nog steeds een kennislacune over welke soorten data-evaluatiemetrics kunnen worden gebruikt en hoe deze kunnen worden geïntegreerd in het selectiemechanisme. Om deze kloof te overbruggen, presenteren we een uitgebreid overzicht van bestaande literatuur over data-evaluatie en -selectie, specifiek voor instructie-afstemming van LLM's. We categoriseren systematisch alle toepasbare methoden in kwaliteitsgebaseerde, diversiteitsgebaseerde en belangrijkheidsgebaseerde methoden, waarbij een uniforme, fijnmazige taxonomie wordt gestructureerd. Voor elke categorie worden representatieve methoden uitgelegd om het landschap van relevant onderzoek te beschrijven. Daarnaast wordt een vergelijking gemaakt tussen de nieuwste methoden op basis van hun officieel gerapporteerde resultaten om diepgaande discussies te bieden over hun beperkingen. Tot slot vatten we de open uitdagingen samen en stellen we veelbelovende richtingen voor toekomstige studies voor. Alle gerelateerde inhoud is beschikbaar op https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models
(LLMs) with human preference. Despite the vast amount of open instruction
datasets, naively training a LLM on all existing instructions may not be
optimal and practical. To pinpoint the most beneficial datapoints, data
assessment and selection methods have been proposed in the fields of natural
language processing (NLP) and deep learning. However, under the context of
instruction tuning, there still exists a gap in knowledge on what kind of data
evaluation metrics can be employed and how they can be integrated into the
selection mechanism. To bridge this gap, we present a comprehensive review on
existing literature of data assessment and selection especially for instruction
tuning of LLMs. We systematically categorize all applicable methods into
quality-based, diversity-based, and importance-based ones where a unified,
fine-grained taxonomy is structured. For each category, representative methods
are elaborated to describe the landscape of relevant research. In addition,
comparison between latest methods is conducted on their officially reported
results to provide in-depth discussions on their limitations. Finally, we
summarize the open challenges and propose the promosing avenues for future
studies. All related contents are available at
https://github.com/yuleiqin/fantastic-data-engineering.