ChatPaper.aiChatPaper

Het Benutten van de Kracht van de Data-Tsunami: Een Uitgebreid Onderzoek naar Data-Evaluatie en Selectie voor Instructieafstemming van Taalmodellen

Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models

August 4, 2024
Auteurs: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI

Samenvatting

Instructie-afstemming speelt een cruciale rol bij het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren. Ondanks de enorme hoeveelheid open instructiedatasets, is het naïef trainen van een LLM op alle bestaande instructies niet optimaal en praktisch. Om de meest waardevolle datapunten te identificeren, zijn er methoden voor data-evaluatie en -selectie voorgesteld in de velden van natuurlijke taalverwerking (NLP) en deep learning. Echter, in de context van instructie-afstemming bestaat er nog steeds een kennislacune over welke soorten data-evaluatiemetrics kunnen worden gebruikt en hoe deze kunnen worden geïntegreerd in het selectiemechanisme. Om deze kloof te overbruggen, presenteren we een uitgebreid overzicht van bestaande literatuur over data-evaluatie en -selectie, specifiek voor instructie-afstemming van LLM's. We categoriseren systematisch alle toepasbare methoden in kwaliteitsgebaseerde, diversiteitsgebaseerde en belangrijkheidsgebaseerde methoden, waarbij een uniforme, fijnmazige taxonomie wordt gestructureerd. Voor elke categorie worden representatieve methoden uitgelegd om het landschap van relevant onderzoek te beschrijven. Daarnaast wordt een vergelijking gemaakt tussen de nieuwste methoden op basis van hun officieel gerapporteerde resultaten om diepgaande discussies te bieden over hun beperkingen. Tot slot vatten we de open uitdagingen samen en stellen we veelbelovende richtingen voor toekomstige studies voor. Alle gerelateerde inhoud is beschikbaar op https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering.
PDF194November 28, 2024