Desencadeando o Poder do Tsunami de Dados: Uma Pesquisa Abrangente sobre Avaliação e Seleção de Dados para Ajuste de Instruções de Modelos de Linguagem
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models
August 4, 2024
Autores: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI
Resumo
A afinação de instruções desempenha um papel crítico no alinhamento de grandes modelos de linguagem (LLMs) com a preferência humana. Apesar da vasta quantidade de conjuntos de dados de instruções abertas, treinar ingenuamente um LLM em todas as instruções existentes pode não ser ótimo e prático. Para identificar os pontos de dados mais benéficos, métodos de avaliação e seleção de dados foram propostos nos campos de processamento de linguagem natural (NLP) e aprendizado profundo. No entanto, no contexto da afinação de instruções, ainda existe uma lacuna de conhecimento sobre que tipo de métricas de avaliação de dados podem ser empregadas e como podem ser integradas ao mecanismo de seleção. Para preencher essa lacuna, apresentamos uma revisão abrangente da literatura existente sobre avaliação e seleção de dados, especialmente para a afinação de instruções de LLMs. Categorizamos sistematicamente todos os métodos aplicáveis em baseados em qualidade, baseados em diversidade e baseados em importância, onde uma taxonomia unificada e refinada é estruturada. Para cada categoria, métodos representativos são detalhados para descrever o panorama da pesquisa relevante. Além disso, é realizada uma comparação entre os métodos mais recentes com base em seus resultados oficialmente relatados para fornecer discussões aprofundadas sobre suas limitações. Por fim, resumimos os desafios em aberto e propomos as promissoras direções para estudos futuros. Todo o conteúdo relacionado está disponível em https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models
(LLMs) with human preference. Despite the vast amount of open instruction
datasets, naively training a LLM on all existing instructions may not be
optimal and practical. To pinpoint the most beneficial datapoints, data
assessment and selection methods have been proposed in the fields of natural
language processing (NLP) and deep learning. However, under the context of
instruction tuning, there still exists a gap in knowledge on what kind of data
evaluation metrics can be employed and how they can be integrated into the
selection mechanism. To bridge this gap, we present a comprehensive review on
existing literature of data assessment and selection especially for instruction
tuning of LLMs. We systematically categorize all applicable methods into
quality-based, diversity-based, and importance-based ones where a unified,
fine-grained taxonomy is structured. For each category, representative methods
are elaborated to describe the landscape of relevant research. In addition,
comparison between latest methods is conducted on their officially reported
results to provide in-depth discussions on their limitations. Finally, we
summarize the open challenges and propose the promosing avenues for future
studies. All related contents are available at
https://github.com/yuleiqin/fantastic-data-engineering.