ChatPaper.aiChatPaper

FocusLLM: Skalierung des Kontexts von LLM durch paralleles Decodieren

FocusLLM: Scaling LLM's Context by Parallel Decoding

August 21, 2024
Autoren: Zhenyu Li, Yike Zhang, Tengyu Pan, Yutao Sun, Zhichao Duan, Junjie Fang, Rong Han, Zixuan Wang, Jianyong Wang
cs.AI

Zusammenfassung

Die Befähigung von LLMs, nützliche Informationen aus einem langen Kontext zu nutzen, ist für viele nachgelagerte Anwendungen entscheidend. Allerdings erfordert die Erreichung langer Kontextlängen mit der herkömmlichen Transformer-Architektur erhebliche Schulungs- und Inferenzressourcen. In diesem Artikel stellen wir FocusLLM vor, ein Framework, das entwickelt wurde, um die Kontextlänge eines jeden Decoder-only LLMs zu erweitern, sodass das Modell relevante Informationen aus sehr langen Sequenzen fokussieren kann. FocusLLM verarbeitet lange Texteingaben, indem es sie in Abschnitte unterteilt, die auf der ursprünglichen Kontextlänge des Modells basieren, um das Problem der Aufmerksamkeitsablenkung zu mildern. Anschließend fügt es jedem Abschnitt den lokalen Kontext als Anregung hinzu, um mithilfe eines neuartigen parallelen Dekodiermechanismus wesentliche Informationen aus jedem Abschnitt zu extrahieren und diese letztendlich in den lokalen Kontext zu integrieren. FocusLLM zeichnet sich durch hohe Schulungseffizienz und Vielseitigkeit aus: Mit einer Eingabelänge von 8K trainiert und mit deutlich geringeren Schulungskosten als bei früheren Methoden zeigt FocusLLM eine überlegene Leistung bei nachgelagerten Aufgaben mit langem Kontext und behält eine starke Sprachmodellierungsfähigkeit bei der Bearbeitung umfangreicher langer Texte, sogar bis zu 400K Tokens. Unser Code ist verfügbar unter https://github.com/leezythu/FocusLLM.
English
Empowering LLMs with the ability to utilize useful information from a long context is crucial for many downstream applications. However, achieving long context lengths with the conventional transformer architecture requires substantial training and inference resources. In this paper, we present FocusLLM, a framework designed to extend the context length of any decoder-only LLM, enabling the model to focus on relevant information from very long sequences. FocusLLM processes long text inputs by dividing them into chunks based on the model's original context length to alleviate the issue of attention distraction. Then, it appends the local context to each chunk as a prompt to extract essential information from each chunk based on a novel parallel decoding mechanism, and ultimately integrates the extracted information into the local context. FocusLLM stands out for great training efficiency and versatility: trained with an 8K input length with much less training cost than previous methods, FocusLLM exhibits superior performance across downstream long-context tasks and maintains strong language modeling ability when handling extensive long texts, even up to 400K tokens. Our code is available at https://github.com/leezythu/FocusLLM.

Summary

AI-Generated Summary

PDF263November 16, 2024