CLEX: Continue Lengte-extrapolatie voor Grote Taalmodellen
CLEX: Continuous Length Extrapolation for Large Language Models
October 25, 2023
Auteurs: Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
cs.AI
Samenvatting
Transformer-gebaseerde Large Language Models (LLMs) zijn baanbrekende vooruitgangen in veel natuurlijke taalverwerkingstaken, maar hun uitzonderlijke mogelijkheden zijn beperkt binnen het vooraf ingestelde contextvenster van de Transformer. Position Embedding (PE) schaalingsmethoden, hoewel effectief in het uitbreiden van het contextvenster tot een specifieke lengte, vertonen ofwel aanzienlijke beperkingen in hun extrapolatievermogen of offeren gedeeltelijke prestaties binnen het contextvenster op. Lengte-extrapolatiemethoden, hoewel theoretisch in staat om het contextvenster voorbij de trainingssequentielengte uit te breiden, presteren vaak ondermaats in praktische lange-contexttoepassingen. Om deze uitdagingen aan te pakken, stellen wij Continuous Length EXtrapolation (CLEX) voor voor LLMs. We generaliseren de PE-schalingbenaderingen om de continue dynamiek te modelleren door middel van gewone differentiaalvergelijkingen over de lengteschalingsfactor, waardoor de beperkingen van huidige PE-schalingmethoden die voor specifieke lengtes zijn ontworpen, worden overwonnen. Bovendien, door de dynamiek uit te breiden naar gewenste contextlengtes voorbij de trainingssequentielengte, vergemakkelijkt CLEX de lengte-extrapolatie met indrukwekkende prestaties in praktische taken. We tonen aan dat CLEX naadloos kan worden geïntegreerd in LLMs uitgerust met Rotary Position Embedding, zoals LLaMA en GPT-NeoX, met een verwaarloosbare impact op de trainings- en inferentielatentie. Experimentele resultaten onthullen dat CLEX het contextvenster effectief kan uitbreiden tot meer dan 4x of bijna 8x de trainingslengte, zonder prestatieverlies. Bovendien, wanneer geëvalueerd op de praktische LongBench-benchmark, vertoont ons model getraind op een lengte van 4k competitieve prestaties ten opzichte van state-of-the-art open-source modellen getraind op contextlengtes tot 32k.
English
Transformer-based Large Language Models (LLMs) are pioneering advances in
many natural language processing tasks, however, their exceptional capabilities
are restricted within the preset context window of Transformer. Position
Embedding (PE) scaling methods, while effective in extending the context window
to a specific length, demonstrate either notable limitations in their
extrapolation abilities or sacrificing partial performance within the context
window. Length extrapolation methods, although theoretically capable of
extending the context window beyond the training sequence length, often
underperform in practical long-context applications. To address these
challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We
generalise the PE scaling approaches to model the continuous dynamics by
ordinary differential equations over the length scaling factor, thereby
overcoming the constraints of current PE scaling methods designed for specific
lengths. Moreover, by extending the dynamics to desired context lengths beyond
the training sequence length, CLEX facilitates the length extrapolation with
impressive performance in practical tasks. We demonstrate that CLEX can be
seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such
as LLaMA and GPT-NeoX, with negligible impact on training and inference
latency. Experimental results reveal that CLEX can effectively extend the
context window to over 4x or almost 8x training length, with no deterioration
in performance. Furthermore, when evaluated on the practical LongBench
benchmark, our model trained on a 4k length exhibits competitive performance
against state-of-the-art open-source models trained on context lengths up to
32k.