Seleção de Amostras Influentes para Alinhamento de Contexto Longo por meio da Orientação de Modelos Homólogos e Medição da Consciência Contextual.

Resumo

A expansão de grandes modelos de linguagem para lidar efetivamente com instruções que possuem contextos extremamente longos ainda não foi totalmente investigada. O principal obstáculo reside na construção de um conjunto de dados de alta qualidade para seguir instruções longas, elaborado para o alinhamento de contextos longos. Estudos existentes tentaram aumentar o volume de dados disponíveis sintetizando amostras de seguimento de instruções longas. No entanto, aumentar indiscriminadamente a quantidade de dados sem uma estratégia bem definida para garantir a qualidade dos dados pode introduzir amostras de baixa qualidade e restringir o desempenho final. Para preencher essa lacuna, nosso objetivo é abordar o desafio único do alinhamento de contextos longos, ou seja, modelar as dependências de longo alcance para lidar com instruções e contextos de entrada extensos. Propomos o GATEAU, um novo framework projetado para identificar as amostras influentes e de alta qualidade enriquecidas com relações de dependência de longo alcance, utilizando Orientação de Modelos Homólogos (HMG) e Medição de Consciência Contextual (CAM) elaboradas. Especificamente, a HMG tenta medir a dificuldade de gerar respostas correspondentes devido às dependências de longo alcance, utilizando os escores de perplexidade da resposta de dois modelos homólogos com diferentes janelas de contexto. Além disso, o papel do CAM é medir a dificuldade de compreender os contextos de entrada longos devido às dependências de longo alcance, avaliando se a atenção do modelo está focada em segmentos importantes. Com base nos dois métodos propostos, selecionamos as amostras mais desafiadoras como dados influentes para enquadrar efetivamente as dependências de longo alcance, alcançando assim um melhor desempenho dos LLMs. Experimentos abrangentes indicam que o GATEAU identifica efetivamente amostras enriquecidas com relações de dependência de longo alcance e o modelo treinado com essas amostras selecionadas apresenta melhores capacidades de seguir instruções e compreender contextos longos.

English

The expansion of large language models to effectively handle instructions with extremely long contexts has yet to be fully investigated. The primary obstacle lies in constructing a high-quality long instruction-following dataset devised for long context alignment. Existing studies have attempted to scale up the available data volume by synthesizing long instruction-following samples. However, indiscriminately increasing the quantity of data without a well-defined strategy for ensuring data quality may introduce low-quality samples and restrict the final performance. To bridge this gap, we aim to address the unique challenge of long-context alignment, i.e., modeling the long-range dependencies for handling instructions and lengthy input contexts. We propose GATEAU, a novel framework designed to identify the influential and high-quality samples enriched with long-range dependency relations by utilizing crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement (CAM). Specifically, HMG attempts to measure the difficulty of generating corresponding responses due to the long-range dependencies, using the perplexity scores of the response from two homologous models with different context windows. Also, the role of CAM is to measure the difficulty of understanding the long input contexts due to long-range dependencies by evaluating whether the model's attention is focused on important segments. Built upon both proposed methods, we select the most challenging samples as the influential data to effectively frame the long-range dependencies, thereby achieving better performance of LLMs. Comprehensive experiments indicate that GATEAU effectively identifies samples enriched with long-range dependency relations and the model trained on these selected samples exhibits better instruction-following and long-context understanding capabilities.

Seleção de Amostras Influentes para Alinhamento de Contexto Longo por meio da Orientação de Modelos Homólogos e Medição da Consciência Contextual.

Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement

Resumo

Support