LazyLLM: Dynamisches Token-Pruning zur effizienten Inferenz von Long-Context-LLMsLazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
Die Inferenz von auf Transformer basierenden großen Sprachmodellen besteht aus zwei aufeinanderfolgenden Phasen: 1) einer Vorausfüllphase zur Berechnung des KV-Caches von Eingaben und zur Generierung des ersten Tokens und 2) einer Decodierungsphase zur Generierung nachfolgender Tokens. Bei langen Eingaben müssen während der Vorausfüllphase der KV-Cache für alle Tokens berechnet werden, was die Zeit zur Generierung des ersten Tokens signifikant erhöhen kann. Folglich kann die Vorausfüllphase zum Engpass im Generierungsprozess werden. Es bleibt eine offene Frage, ob alle Eingabetokens für die Generierung des ersten Tokens unerlässlich sind. Um dies zu beantworten, stellen wir eine neue Methode namens LazyLLM vor, die selektiv den KV für Tokens berechnet, die für die Vorhersage des nächsten Tokens in beiden Phasen, der Vorausfüllung und der Decodierung, wichtig sind. Im Gegensatz zu statischen Pruning-Ansätzen, die die Eingabe auf einmal kürzen, ermöglicht LazyLLM Sprachmodellen, in verschiedenen Generierungsschritten dynamisch unterschiedliche Teilmengen von Tokens aus dem Kontext auszuwählen, auch wenn sie in vorherigen Schritten gekürzt wurden. Umfangreiche Experimente mit Standarddatensätzen in verschiedenen Aufgaben zeigen, dass LazyLLM eine generische Methode ist, die nahtlos in bestehende Sprachmodelle integriert werden kann, um die Generierung signifikant zu beschleunigen, ohne Feinabstimmung. Beispielsweise beschleunigt LazyLLM in der Aufgabe des Multi-Dokumenten-Frage-Antwortens die Vorausfüllphase des LLama 2 7B-Modells um das 2,34-fache, während die Genauigkeit beibehalten wird.