InfiniPot: Unbegrenzte Kontextverarbeitung auf speicherbeschränkten LLMs

papers.abstract

Die Handhabung langer Eingabekontexte bleibt eine bedeutende Herausforderung für große Sprachmodelle (LLMs), insbesondere in ressourcenbeschränkten Umgebungen wie mobilen Geräten. Unsere Arbeit zielt darauf ab, diese Einschränkung durch die Einführung von InfiniPot, einem neuartigen KV-Cache-Steuerungsrahmen, der es vortrainierten LLMs ermöglicht, umfangreiche Sequenzen innerhalb fester Speicherbeschränkungen effizient zu verwalten, ohne zusätzliches Training zu erfordern, zu adressieren. InfiniPot nutzt die Kontinuierliche Kontextdestillation (CCD), ein iteratives Verfahren, das wesentliche Informationen durch neuartige Wichtigkeitsmetriken komprimiert und bewahrt, um kritische Daten effektiv zu erhalten, selbst ohne Zugriff auf zukünftigen Kontext. Unsere umfassenden Bewertungen zeigen, dass InfiniPot in verschiedenen NLP-Aufgaben signifikant besser abschneidet als Modelle, die für lange Kontexte trainiert wurden, und damit seine Wirksamkeit und Vielseitigkeit unterstreichen. Diese Arbeit stellt einen bedeutenden Fortschritt dar, um LLMs für eine breitere Palette realer Szenarien anwendbar zu machen.

English

Handling long input contexts remains a significant challenge for Large Language Models (LLMs), particularly in resource-constrained environments such as mobile devices. Our work aims to address this limitation by introducing InfiniPot, a novel KV cache control framework designed to enable pre-trained LLMs to manage extensive sequences within fixed memory constraints efficiently, without requiring additional training. InfiniPot leverages Continual Context Distillation (CCD), an iterative process that compresses and retains essential information through novel importance metrics, effectively maintaining critical data even without access to future context. Our comprehensive evaluations indicate that InfiniPot significantly outperforms models trained for long contexts in various NLP tasks, establishing its efficacy and versatility. This work represents a substantial advancement toward making LLMs applicable to a broader range of real-world scenarios.

InfiniPot: Unbegrenzte Kontextverarbeitung auf speicherbeschränkten LLMs

InfiniPot: Infinite Context Processing on Memory-Constrained LLMs

papers.abstract

Support