LongAlign: Una receta para la alineación de contexto extenso en modelos de lenguaje de gran escala
LongAlign: A Recipe for Long Context Alignment of Large Language Models
January 31, 2024
Autores: Yushi Bai, Xin Lv, Jiajie Zhang, Yuze He, Ji Qi, Lei Hou, Jie Tang, Yuxiao Dong, Juanzi Li
cs.AI
Resumen
Extender los modelos de lenguaje de gran escala para manejar eficazmente contextos largos requiere ajuste fino mediante instrucciones en secuencias de entrada de longitud similar. Para abordar esto, presentamos LongAlign: una receta que incluye los datos de instrucción, el entrenamiento y la evaluación para la alineación de contextos largos. Primero, construimos un conjunto de datos de seguimiento de instrucciones largas utilizando Self-Instruct. Para garantizar la diversidad de los datos, este cubre una amplia gama de tareas provenientes de diversas fuentes de contextos largos. Segundo, adoptamos estrategias de empaquetado y agrupación ordenada para acelerar el ajuste fino supervisado en datos con distribuciones de longitud variada. Además, desarrollamos un método de ponderación de pérdidas para equilibrar la contribución a la pérdida entre diferentes secuencias durante el entrenamiento con empaquetado. Tercero, introducimos el benchmark LongBench-Chat para evaluar las capacidades de seguimiento de instrucciones en consultas de 10k a 100k de longitud. Los experimentos muestran que LongAlign supera las recetas existentes para modelos de lenguaje en tareas de contexto largo hasta en un 30\%, manteniendo también su competencia en el manejo de tareas cortas y genéricas. El código, los datos y los modelos alineados para contextos largos están disponibles en https://github.com/THUDM/LongAlign.
English
Extending large language models to effectively handle long contexts requires
instruction fine-tuning on input sequences of similar length. To address this,
we present LongAlign -- a recipe of the instruction data, training, and
evaluation for long context alignment. First, we construct a long
instruction-following dataset using Self-Instruct. To ensure the data
diversity, it covers a broad range of tasks from various long context sources.
Second, we adopt the packing and sorted batching strategies to speed up
supervised fine-tuning on data with varied length distributions. Additionally,
we develop a loss weighting method to balance the contribution to the loss
across different sequences during packing training. Third, we introduce the
LongBench-Chat benchmark for evaluating instruction-following capabilities on
queries of 10k-100k in length. Experiments show that LongAlign outperforms
existing recipes for LLMs in long context tasks by up to 30\%, while also
maintaining their proficiency in handling short, generic tasks. The code, data,
and long-aligned models are open-sourced at https://github.com/THUDM/LongAlign.