LongAlign: Een recept voor lange context-afstemming van grote taalmodellen
LongAlign: A Recipe for Long Context Alignment of Large Language Models
January 31, 2024
Auteurs: Yushi Bai, Xin Lv, Jiajie Zhang, Yuze He, Ji Qi, Lei Hou, Jie Tang, Yuxiao Dong, Juanzi Li
cs.AI
Samenvatting
Het uitbreiden van grote taalmodellen om lange contexten effectief te verwerken vereist instructie-finetuning op invoerreeksen van vergelijkbare lengte. Om dit aan te pakken, presenteren we LongAlign -- een recept voor de instructiedata, training en evaluatie voor lange context-uitlijning. Ten eerste construeren we een lange instructievolgende dataset met behulp van Self-Instruct. Om de diversiteit van de data te waarborgen, bestrijkt deze een breed scala aan taken uit verschillende lange contextbronnen. Ten tweede passen we de strategieën van packing en gesorteerd batching toe om supervised finetuning te versnellen op data met gevarieerde lengteverdelingen. Daarnaast ontwikkelen we een methode voor verliesweging om de bijdrage aan het verlies over verschillende reeksen tijdens packing training in balans te brengen. Ten derde introduceren we de LongBench-Chat benchmark voor het evalueren van instructievolgende capaciteiten op queries van 10k-100k in lengte. Experimenten tonen aan dat LongAlign bestaande recepten voor LLM's in lange context taken met tot wel 30\% overtreft, terwijl het ook hun vaardigheid behoudt in het omgaan met korte, generieke taken. De code, data en lange-uitgelijnde modellen zijn openbaar gemaakt op https://github.com/THUDM/LongAlign.
English
Extending large language models to effectively handle long contexts requires
instruction fine-tuning on input sequences of similar length. To address this,
we present LongAlign -- a recipe of the instruction data, training, and
evaluation for long context alignment. First, we construct a long
instruction-following dataset using Self-Instruct. To ensure the data
diversity, it covers a broad range of tasks from various long context sources.
Second, we adopt the packing and sorted batching strategies to speed up
supervised fine-tuning on data with varied length distributions. Additionally,
we develop a loss weighting method to balance the contribution to the loss
across different sequences during packing training. Third, we introduce the
LongBench-Chat benchmark for evaluating instruction-following capabilities on
queries of 10k-100k in length. Experiments show that LongAlign outperforms
existing recipes for LLMs in long context tasks by up to 30\%, while also
maintaining their proficiency in handling short, generic tasks. The code, data,
and long-aligned models are open-sourced at https://github.com/THUDM/LongAlign.