Sfruttare il Potenziale dello Tsunami di Dati: Un'Analisi Completa sulla Valutazione e Selezione dei Dati per il Fine-Tuning Istruttivo dei Modelli Linguistici
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models
August 4, 2024
Autori: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI
Abstract
L'instruction tuning svolge un ruolo cruciale nell'allineare i grandi modelli linguistici (LLM) con le preferenze umane. Nonostante l'ampia disponibilità di dataset di istruzioni open, addestrare un LLM su tutte le istruzioni esistenti in modo ingenuo potrebbe non essere ottimale né pratico. Per identificare i punti dati più vantaggiosi, sono stati proposti metodi di valutazione e selezione dei dati nei campi dell'elaborazione del linguaggio naturale (NLP) e del deep learning. Tuttavia, nel contesto dell'instruction tuning, esiste ancora una lacuna nella conoscenza riguardo a quali metriche di valutazione dei dati possano essere impiegate e come possano essere integrate nel meccanismo di selezione. Per colmare questa lacuna, presentiamo una revisione completa della letteratura esistente sulla valutazione e selezione dei dati, in particolare per l'instruction tuning dei LLM. Sistematicamente categorizziamo tutti i metodi applicabili in quelli basati sulla qualità, sulla diversità e sull'importanza, strutturando una tassonomia unificata e dettagliata. Per ogni categoria, vengono elaborati metodi rappresentativi per descrivere il panorama della ricerca rilevante. Inoltre, viene effettuato un confronto tra i metodi più recenti basandosi sui risultati ufficialmente riportati, per fornire discussioni approfondite sui loro limiti. Infine, riassumiamo le sfide aperte e proponiamo le direzioni promettenti per gli studi futuri. Tutti i contenuti correlati sono disponibili al seguente link: https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models
(LLMs) with human preference. Despite the vast amount of open instruction
datasets, naively training a LLM on all existing instructions may not be
optimal and practical. To pinpoint the most beneficial datapoints, data
assessment and selection methods have been proposed in the fields of natural
language processing (NLP) and deep learning. However, under the context of
instruction tuning, there still exists a gap in knowledge on what kind of data
evaluation metrics can be employed and how they can be integrated into the
selection mechanism. To bridge this gap, we present a comprehensive review on
existing literature of data assessment and selection especially for instruction
tuning of LLMs. We systematically categorize all applicable methods into
quality-based, diversity-based, and importance-based ones where a unified,
fine-grained taxonomy is structured. For each category, representative methods
are elaborated to describe the landscape of relevant research. In addition,
comparison between latest methods is conducted on their officially reported
results to provide in-depth discussions on their limitations. Finally, we
summarize the open challenges and propose the promosing avenues for future
studies. All related contents are available at
https://github.com/yuleiqin/fantastic-data-engineering.