Sfruttare il Potenziale dello Tsunami di Dati: Un'Analisi Completa sulla Valutazione e Selezione dei Dati per il Fine-Tuning Istruttivo dei Modelli Linguistici

Abstract

L'instruction tuning svolge un ruolo cruciale nell'allineare i grandi modelli linguistici (LLM) con le preferenze umane. Nonostante l'ampia disponibilità di dataset di istruzioni open, addestrare un LLM su tutte le istruzioni esistenti in modo ingenuo potrebbe non essere ottimale né pratico. Per identificare i punti dati più vantaggiosi, sono stati proposti metodi di valutazione e selezione dei dati nei campi dell'elaborazione del linguaggio naturale (NLP) e del deep learning. Tuttavia, nel contesto dell'instruction tuning, esiste ancora una lacuna nella conoscenza riguardo a quali metriche di valutazione dei dati possano essere impiegate e come possano essere integrate nel meccanismo di selezione. Per colmare questa lacuna, presentiamo una revisione completa della letteratura esistente sulla valutazione e selezione dei dati, in particolare per l'instruction tuning dei LLM. Sistematicamente categorizziamo tutti i metodi applicabili in quelli basati sulla qualità, sulla diversità e sull'importanza, strutturando una tassonomia unificata e dettagliata. Per ogni categoria, vengono elaborati metodi rappresentativi per descrivere il panorama della ricerca rilevante. Inoltre, viene effettuato un confronto tra i metodi più recenti basandosi sui risultati ufficialmente riportati, per fornire discussioni approfondite sui loro limiti. Infine, riassumiamo le sfide aperte e proponiamo le direzioni promettenti per gli studi futuri. Tutti i contenuti correlati sono disponibili al seguente link: https://github.com/yuleiqin/fantastic-data-engineering.

English

Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering.

Sfruttare il Potenziale dello Tsunami di Dati: Un'Analisi Completa sulla Valutazione e Selezione dei Dati per il Fine-Tuning Istruttivo dei Modelli Linguistici

Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models

Abstract

Support