LongAlign: Una receta para la alineación de contexto extenso en modelos de lenguaje de gran escala

Resumen

Extender los modelos de lenguaje de gran escala para manejar eficazmente contextos largos requiere ajuste fino mediante instrucciones en secuencias de entrada de longitud similar. Para abordar esto, presentamos LongAlign: una receta que incluye los datos de instrucción, el entrenamiento y la evaluación para la alineación de contextos largos. Primero, construimos un conjunto de datos de seguimiento de instrucciones largas utilizando Self-Instruct. Para garantizar la diversidad de los datos, este cubre una amplia gama de tareas provenientes de diversas fuentes de contextos largos. Segundo, adoptamos estrategias de empaquetado y agrupación ordenada para acelerar el ajuste fino supervisado en datos con distribuciones de longitud variada. Además, desarrollamos un método de ponderación de pérdidas para equilibrar la contribución a la pérdida entre diferentes secuencias durante el entrenamiento con empaquetado. Tercero, introducimos el benchmark LongBench-Chat para evaluar las capacidades de seguimiento de instrucciones en consultas de 10k a 100k de longitud. Los experimentos muestran que LongAlign supera las recetas existentes para modelos de lenguaje en tareas de contexto largo hasta en un 30\%, manteniendo también su competencia en el manejo de tareas cortas y genéricas. El código, los datos y los modelos alineados para contextos largos están disponibles en https://github.com/THUDM/LongAlign.

English

Extending large language models to effectively handle long contexts requires instruction fine-tuning on input sequences of similar length. To address this, we present LongAlign -- a recipe of the instruction data, training, and evaluation for long context alignment. First, we construct a long instruction-following dataset using Self-Instruct. To ensure the data diversity, it covers a broad range of tasks from various long context sources. Second, we adopt the packing and sorted batching strategies to speed up supervised fine-tuning on data with varied length distributions. Additionally, we develop a loss weighting method to balance the contribution to the loss across different sequences during packing training. Third, we introduce the LongBench-Chat benchmark for evaluating instruction-following capabilities on queries of 10k-100k in length. Experiments show that LongAlign outperforms existing recipes for LLMs in long context tasks by up to 30\%, while also maintaining their proficiency in handling short, generic tasks. The code, data, and long-aligned models are open-sourced at https://github.com/THUDM/LongAlign.

LongAlign: Una receta para la alineación de contexto extenso en modelos de lenguaje de gran escala

LongAlign: A Recipe for Long Context Alignment of Large Language Models

Resumen

Support