ChatPaper.aiChatPaper

LLM Maybe LongLM: Selbstverlängerung des LLM-Kontextfensters ohne Anpassung

LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning

January 2, 2024
Autoren: Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu
cs.AI

Zusammenfassung

Diese Arbeit untersucht die inhärente Fähigkeit von LLMs, lange Kontexte ohne Feinabstimmung zu verarbeiten. Die begrenzte Länge der Trainingssequenz während des Trainings kann die Anwendung von Large Language Models (LLMs) auf lange Eingabesequenzen für die Inferenz einschränken. In dieser Arbeit argumentieren wir, dass bestehende LLMs selbst über inhärente Fähigkeiten zur Verarbeitung langer Kontexte verfügen. Basierend auf diesem Argument schlagen wir vor, das Kontextfenster von LLMs durch sie selbst zu erweitern, um die inhärente Fähigkeit vollständig zu nutzen. Wir schlagen Self-Extend vor, um das Potenzial von LLMs zur Verarbeitung langer Kontexte zu aktivieren. Die grundlegende Idee besteht darin, zweistufige Aufmerksamkeitsinformationen zu konstruieren: die Gruppenebene und die Nachbarschaftsebene. Die beiden Ebenen werden durch die ursprüngliche Selbstaufmerksamkeit des Modells berechnet, was bedeutet, dass der vorgeschlagene Ansatz kein Training erfordert. Mit nur vier Zeilen Codeänderung kann die vorgeschlagene Methode das Kontextfenster bestehender LLMs mühelos erweitern, ohne dass eine Feinabstimmung erforderlich ist. Wir führen umfassende Experimente durch, und die Ergebnisse zeigen, dass die vorgeschlagene Methode die Länge des Kontextfensters bestehender LLMs effektiv erweitern kann.
English
This work elicits LLMs' inherent ability to handle long contexts without fine-tuning. The limited length of the training sequence during training may limit the application of Large Language Models (LLMs) on long input sequences for inference. In this work, we argue that existing LLMs themselves have inherent capabilities for handling long contexts. Based on this argument, we suggest extending LLMs' context window by themselves to fully utilize the inherent ability.We propose Self-Extend to stimulate LLMs' long context handling potential. The basic idea is to construct bi-level attention information: the group level and the neighbor level. The two levels are computed by the original model's self-attention, which means the proposed does not require any training. With only four lines of code modification, the proposed method can effortlessly extend existing LLMs' context window without any fine-tuning. We conduct comprehensive experiments and the results show that the proposed method can effectively extend existing LLMs' context window's length.
PDF283December 15, 2024