LongAlign: Een recept voor lange context-afstemming van grote taalmodellen

Samenvatting

Het uitbreiden van grote taalmodellen om lange contexten effectief te verwerken vereist instructie-finetuning op invoerreeksen van vergelijkbare lengte. Om dit aan te pakken, presenteren we LongAlign -- een recept voor de instructiedata, training en evaluatie voor lange context-uitlijning. Ten eerste construeren we een lange instructievolgende dataset met behulp van Self-Instruct. Om de diversiteit van de data te waarborgen, bestrijkt deze een breed scala aan taken uit verschillende lange contextbronnen. Ten tweede passen we de strategieën van packing en gesorteerd batching toe om supervised finetuning te versnellen op data met gevarieerde lengteverdelingen. Daarnaast ontwikkelen we een methode voor verliesweging om de bijdrage aan het verlies over verschillende reeksen tijdens packing training in balans te brengen. Ten derde introduceren we de LongBench-Chat benchmark voor het evalueren van instructievolgende capaciteiten op queries van 10k-100k in lengte. Experimenten tonen aan dat LongAlign bestaande recepten voor LLM's in lange context taken met tot wel 30\% overtreft, terwijl het ook hun vaardigheid behoudt in het omgaan met korte, generieke taken. De code, data en lange-uitgelijnde modellen zijn openbaar gemaakt op https://github.com/THUDM/LongAlign.

English

Extending large language models to effectively handle long contexts requires instruction fine-tuning on input sequences of similar length. To address this, we present LongAlign -- a recipe of the instruction data, training, and evaluation for long context alignment. First, we construct a long instruction-following dataset using Self-Instruct. To ensure the data diversity, it covers a broad range of tasks from various long context sources. Second, we adopt the packing and sorted batching strategies to speed up supervised fine-tuning on data with varied length distributions. Additionally, we develop a loss weighting method to balance the contribution to the loss across different sequences during packing training. Third, we introduce the LongBench-Chat benchmark for evaluating instruction-following capabilities on queries of 10k-100k in length. Experiments show that LongAlign outperforms existing recipes for LLMs in long context tasks by up to 30\%, while also maintaining their proficiency in handling short, generic tasks. The code, data, and long-aligned models are open-sourced at https://github.com/THUDM/LongAlign.

LongAlign: Een recept voor lange context-afstemming van grote taalmodellen

LongAlign: A Recipe for Long Context Alignment of Large Language Models

Samenvatting

Support