Het uitbreiden van het contextvenster van LLM's met 100 voorbeelden
Extending LLMs' Context Window with 100 Samples
January 13, 2024
Auteurs: Yikai Zhang, Junlong Li, Pengfei Liu
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) staan erom bekend een beperkte extrapolatiecapaciteit te hebben buiten hun vooraf getrainde contextvenster, wat hun toepassing in downstreamtaken met lange invoeren beperkt. Recente studies hebben geprobeerd het contextvenster van LLMs uit te breiden door aanpassingen aan te brengen in rotary position embedding (RoPE), een populaire positioneringscoderingmethode die wordt gebruikt door bekende LLMs zoals LLaMA, PaLM en GPT-NeoX. Eerdere werken zoals Position Interpolation (PI) en YaRN zijn echter resource-intensief en missen vergelijkende experimenten om hun toepasbaarheid te beoordelen. In dit werk identificeren we de inherente behoefte van LLMs aan aandachtentropie (d.w.z. de informatie-entropie van aandachtsscores) om stabiliteit te behouden en introduceren we een nieuwe uitbreiding van RoPE die het aanpassen van de basisfrequentie van RoPE combineert met het schalen van de aandacht-logits om LLMs efficiënt te laten aanpassen aan een groter contextvenster. We valideren de superioriteit van onze methode in zowel fine-tuningprestaties als robuustheid over verschillende contextvenstergroottes bij diverse contextvragende taken. Opmerkelijk is dat onze methode het contextvenster van LLaMA-2-7B-Chat uitbreidt naar 16.384 met slechts 100 samples en 6 trainingsstappen, wat buitengewone efficiëntie aantoont. Tot slot onderzoeken we ook hoe datasamenstellingen en trainingscurricula de uitbreiding van het contextvenster beïnvloeden voor specifieke downstreamtaken, waarbij we fine-tuning van LLMs met lange gesprekken als een goed startpunt suggereren. We geven onze code en SFT-data vrij op https://github.com/GAIR-NLP/Entropy-ABF.
English
Large Language Models (LLMs) are known to have limited extrapolation ability
beyond their pre-trained context window, constraining their application in
downstream tasks with lengthy inputs. Recent studies have sought to extend
LLMs' context window by modifying rotary position embedding (RoPE), a popular
position encoding method adopted by well-known LLMs such as LLaMA, PaLM, and
GPT-NeoX. However, prior works like Position Interpolation (PI) and YaRN are
resource-intensive and lack comparative experiments to assess their
applicability. In this work, we identify the inherent need for LLMs' attention
entropy (i.e. the information entropy of attention scores) to maintain
stability and introduce a novel extension to RoPE which combines adjusting
RoPE's base frequency and scaling the attention logits to help LLMs efficiently
adapt to a larger context window. We validate the superiority of our method in
both fine-tuning performance and robustness across different context window
sizes on various context-demanding tasks. Notably, our method extends the
context window of LLaMA-2-7B-Chat to 16,384 with only 100 samples and 6
training steps, showcasing extraordinary efficiency. Finally, we also explore
how data compositions and training curricula affect context window extension
for specific downstream tasks, suggesting fine-tuning LLMs with lengthy
conversations as a good starting point. We release our code and SFT data at
https://github.com/GAIR-NLP/Entropy-ABF.