ChatPaper.aiChatPaper

Selección de Muestras Influyentes para la Alineación de Contextos Largos a través de la Orientación de Modelos Homólogos y la Medición de la Conciencia Contextual.

Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement

October 21, 2024
Autores: Shuzheng Si, Haozhe Zhao, Gang Chen, Yunshui Li, Kangyang Luo, Chuancheng Lv, Kaikai An, Fanchao Qi, Baobao Chang, Maosong Sun
cs.AI

Resumen

La expansión de modelos de lenguaje grandes para manejar efectivamente instrucciones con contextos extremadamente largos aún no ha sido completamente investigada. El principal obstáculo radica en la construcción de un conjunto de datos de alta calidad para seguir instrucciones a largo plazo, diseñado para el alineamiento de contextos largos. Estudios existentes han intentado escalar el volumen de datos disponible mediante la síntesis de muestras de seguimiento de instrucciones a largo plazo. Sin embargo, aumentar indiscriminadamente la cantidad de datos sin una estrategia bien definida para garantizar la calidad de los datos puede introducir muestras de baja calidad y limitar el rendimiento final. Para cerrar esta brecha, nuestro objetivo es abordar el desafío único del alineamiento de contextos largos, es decir, modelar las dependencias a largo plazo para manejar instrucciones y contextos de entrada extensos. Proponemos GATEAU, un marco novedoso diseñado para identificar las muestras influyentes y de alta calidad enriquecidas con relaciones de dependencia a largo plazo mediante el uso de la Guía de Modelos Homólogos (HMG) y la Medición de Conciencia Contextual (CAM). Específicamente, HMG intenta medir la dificultad de generar respuestas correspondientes debido a las dependencias a largo plazo, utilizando las puntuaciones de perplejidad de la respuesta de dos modelos homólogos con diferentes ventanas de contexto. Además, el papel de CAM es medir la dificultad de comprender los contextos de entrada largos debido a las dependencias a largo plazo evaluando si la atención del modelo se centra en segmentos importantes. Basándonos en ambos métodos propuestos, seleccionamos las muestras más desafiantes como los datos influyentes para enmarcar efectivamente las dependencias a largo plazo, logrando así un mejor rendimiento de los LLMs. Experimentos exhaustivos indican que GATEAU identifica efectivamente muestras enriquecidas con relaciones de dependencia a largo plazo y que el modelo entrenado con estas muestras seleccionadas muestra mejores capacidades de seguimiento de instrucciones y comprensión de contextos largos.
English
The expansion of large language models to effectively handle instructions with extremely long contexts has yet to be fully investigated. The primary obstacle lies in constructing a high-quality long instruction-following dataset devised for long context alignment. Existing studies have attempted to scale up the available data volume by synthesizing long instruction-following samples. However, indiscriminately increasing the quantity of data without a well-defined strategy for ensuring data quality may introduce low-quality samples and restrict the final performance. To bridge this gap, we aim to address the unique challenge of long-context alignment, i.e., modeling the long-range dependencies for handling instructions and lengthy input contexts. We propose GATEAU, a novel framework designed to identify the influential and high-quality samples enriched with long-range dependency relations by utilizing crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement (CAM). Specifically, HMG attempts to measure the difficulty of generating corresponding responses due to the long-range dependencies, using the perplexity scores of the response from two homologous models with different context windows. Also, the role of CAM is to measure the difficulty of understanding the long input contexts due to long-range dependencies by evaluating whether the model's attention is focused on important segments. Built upon both proposed methods, we select the most challenging samples as the influential data to effectively frame the long-range dependencies, thereby achieving better performance of LLMs. Comprehensive experiments indicate that GATEAU effectively identifies samples enriched with long-range dependency relations and the model trained on these selected samples exhibits better instruction-following and long-context understanding capabilities.

Summary

AI-Generated Summary

PDF73November 16, 2024