ChatPaper.aiChatPaper

Desatando el Poder del Tsunami de Datos: Una Encuesta Exhaustiva sobre la Evaluación y Selección de Datos para el Ajuste de Instrucciones de Modelos de Lenguaje

Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models

August 4, 2024
Autores: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun
cs.AI

Resumen

La sintonización de instrucciones juega un papel crítico en alinear los grandes modelos de lenguaje (LLMs) con las preferencias humanas. A pesar de la gran cantidad de conjuntos de datos de instrucciones abiertos, entrenar ingenuamente un LLM en todas las instrucciones existentes puede no ser óptimo ni práctico. Para identificar los puntos de datos más beneficiosos, se han propuesto métodos de evaluación y selección de datos en los campos de procesamiento de lenguaje natural (NLP) y aprendizaje profundo. Sin embargo, en el contexto de la sintonización de instrucciones, aún existe una brecha en el conocimiento sobre qué tipo de métricas de evaluación de datos se pueden emplear y cómo se pueden integrar en el mecanismo de selección. Para cerrar esta brecha, presentamos una revisión exhaustiva de la literatura existente sobre evaluación y selección de datos, especialmente para la sintonización de instrucciones de LLMs. Categorizamos sistemáticamente todos los métodos aplicables en base a la calidad, diversidad e importancia, donde se estructura una taxonomía unificada y detallada. Para cada categoría, se detallan métodos representativos para describir el panorama de la investigación relevante. Además, se realiza una comparación entre los últimos métodos en función de sus resultados informados oficialmente para proporcionar discusiones en profundidad sobre sus limitaciones. Finalmente, resumimos los desafíos abiertos y proponemos las vías prometedoras para futuros estudios. Todo el contenido relacionado está disponible en https://github.com/yuleiqin/fantastic-data-engineering.
English
Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering.

Summary

AI-Generated Summary

PDF194November 28, 2024