LLM Maybe LongLM: Selbstverlängerung des LLM-Kontextfensters ohne Anpassung
LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
January 2, 2024
Autoren: Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu
cs.AI
Zusammenfassung
Diese Arbeit untersucht die inhärente Fähigkeit von LLMs, lange Kontexte ohne Feinabstimmung zu verarbeiten. Die begrenzte Länge der Trainingssequenz während des Trainings kann die Anwendung von Large Language Models (LLMs) auf lange Eingabesequenzen für die Inferenz einschränken. In dieser Arbeit argumentieren wir, dass bestehende LLMs selbst über inhärente Fähigkeiten zur Verarbeitung langer Kontexte verfügen. Basierend auf diesem Argument schlagen wir vor, das Kontextfenster von LLMs durch sie selbst zu erweitern, um die inhärente Fähigkeit vollständig zu nutzen. Wir schlagen Self-Extend vor, um das Potenzial von LLMs zur Verarbeitung langer Kontexte zu aktivieren. Die grundlegende Idee besteht darin, zweistufige Aufmerksamkeitsinformationen zu konstruieren: die Gruppenebene und die Nachbarschaftsebene. Die beiden Ebenen werden durch die ursprüngliche Selbstaufmerksamkeit des Modells berechnet, was bedeutet, dass der vorgeschlagene Ansatz kein Training erfordert. Mit nur vier Zeilen Codeänderung kann die vorgeschlagene Methode das Kontextfenster bestehender LLMs mühelos erweitern, ohne dass eine Feinabstimmung erforderlich ist. Wir führen umfassende Experimente durch, und die Ergebnisse zeigen, dass die vorgeschlagene Methode die Länge des Kontextfensters bestehender LLMs effektiv erweitern kann.
English
This work elicits LLMs' inherent ability to handle long contexts without
fine-tuning. The limited length of the training sequence during training may
limit the application of Large Language Models (LLMs) on long input sequences
for inference. In this work, we argue that existing LLMs themselves have
inherent capabilities for handling long contexts. Based on this argument, we
suggest extending LLMs' context window by themselves to fully utilize the
inherent ability.We propose Self-Extend to stimulate LLMs' long context
handling potential. The basic idea is to construct bi-level attention
information: the group level and the neighbor level. The two levels are
computed by the original model's self-attention, which means the proposed does
not require any training. With only four lines of code modification, the
proposed method can effortlessly extend existing LLMs' context window without
any fine-tuning. We conduct comprehensive experiments and the results show that
the proposed method can effectively extend existing LLMs' context window's
length.