Stijgend van 4K naar 400K: Uitbreiding van de context van LLM's met Activatiebaken
Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
January 7, 2024
Auteurs: Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou
cs.AI
Samenvatting
Het gebruik van lange contexten vormt een grote uitdaging voor grote taalmodellen vanwege hun beperkte contextvensterlengte. Hoewel het contextvenster kan worden uitgebreid door fine-tuning, resulteert dit in aanzienlijke kosten tijdens zowel de training als de inferentie, en heeft het een ongunstige impact op de oorspronkelijke capaciteiten van het LLM. In dit werk stellen we Activation Beacon voor, dat de ruwe activaties van het LLM condenseert naar meer compacte vormen, zodat het een veel langere context kan waarnemen met een beperkt contextvenster. Activation Beacon wordt geïntroduceerd als een plug-and-play module voor het LLM. Het behoudt volledig de oorspronkelijke capaciteit van het LLM op korte contexten, terwijl het nieuwe mogelijkheden biedt voor het verwerken van langere contexten. Bovendien werkt het met korte schuivende vensters om de lange context te verwerken, wat een concurrerende geheugen- en tijdefficiëntie oplevert tijdens zowel training als inferentie. Activation Beacon wordt geleerd door de autoregressietaak, geconditioneerd op een mengsel van bakens met diverse condensatieverhoudingen. Dankzij deze aanpak kan het efficiënt worden getraind met alleen korte-sequentiegegevens in slechts 10K stappen, wat minder dan 9 uur kost op een enkele 8xA800 GPU-machine. De experimentele studies tonen aan dat Activation Beacon in staat is om de contextlengte van Llama-2-7B met 100 keer te verlengen (van 4K naar 400K), terwijl het superieure resultaten behaalt op zowel lange-context generatie- als begripstaken. Ons model en code zullen beschikbaar zijn in de BGE-repository.
English
The utilization of long contexts poses a big challenge for large language
models due to their limited context window length. Although the context window
can be extended through fine-tuning, it will result in a considerable cost at
both training and inference time, and exert an unfavorable impact to the LLM's
original capabilities. In this work, we propose Activation Beacon, which
condenses LLM's raw activations into more compact forms such that it can
perceive a much longer context with a limited context window. Activation Beacon
is introduced as a plug-and-play module for the LLM. It fully preserves the
LLM's original capability on short contexts while extending the new capability
on processing longer contexts. Besides, it works with short sliding windows to
process the long context, which achieves a competitive memory and time
efficiency in both training and inference. Activation Beacon is learned by the
auto-regression task conditioned on a mixture of beacons with diversified
condensing ratios. Thanks to such a treatment, it can be efficiently trained
purely with short-sequence data in just 10K steps, which consumes less than 9
hours on a single 8xA800 GPU machine. The experimental studies show that
Activation Beacon is able to extend Llama-2-7B's context length by times100
times (from 4K to 400K), meanwhile achieving a superior result on both
long-context generation and understanding tasks. Our model and code will be
available at the BGE repository.