zip2zip: Inferenzzeit-adaptive Vokabulare für Sprachmodelle durch Token-Kompression

papers.abstract

Die Effizienz der Tokenisierung spielt eine entscheidende Rolle für die Leistung und die Kosten von großen Sprachmodellen (LLMs), doch die meisten Modelle verlassen sich auf statische Tokenizer, die für allgemeine Textkorpora optimiert sind. Die festen Vokabulare dieser Tokenizer passen sich oft nicht an domänen- oder sprachspezifische Eingaben an, was zu längeren Token-Sequenzen und höheren Rechenkosten führt. Wir stellen zip2zip vor, ein Framework, das es LLMs ermöglicht, das Token-Vokabular zur Inferenzzeit dynamisch anzupassen, wodurch weniger Token generiert werden und die Inferenz somit schneller abläuft. zip2zip besteht aus drei Schlüsselkomponenten: (1) einem Tokenizer basierend auf der Lempel-Ziv-Welch (LZW)-Komprimierung, der Token inkrementell in wiederverwendbare „Hypertoken“ komprimiert; (2) einer Embedding-Schicht, die Embeddings für neu gebildete Hypertoken zur Laufzeit berechnet; und (3) einer Variante des kausalen Sprachmodellierens, die das Modell darauf trainiert, mit hypertokenisierten, komprimierten Sequenzen zu arbeiten. Wir zeigen, dass ein bestehendes LLM in 10 GPU-Stunden durch parameter-effizientes Fine-Tuning mit zip2zip ausgestattet werden kann. Die resultierenden zip2zip-LLMs lernen effektiv, Hypertoken zur Inferenzzeit zu nutzen, wodurch die Länge der Eingabe- und Ausgabesequenzen um 20-60\% reduziert wird, was zu erheblichen Verbesserungen bei der Inferenzlatenz führt.

English

Tokenization efficiency plays a critical role in the performance and cost of large language models (LLMs), yet most models rely on static tokenizers optimized for general-purpose corpora. These tokenizers' fixed vocabularies often fail to adapt to domain- or language-specific inputs, leading to longer token sequences and higher computational costs. We introduce zip2zip, a framework that enables LLMs to dynamically adjust token vocabulary at inference time, allowing for fewer generated tokens and thus faster inference. zip2zip consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch (LZW) compression that incrementally compresses tokens into reusable "hypertokens" on the fly; (2) an embedding layer that computes embeddings for newly formed hypertokens at runtime; and (3) a causal language modeling variant that trains the model to operate on hypertokenized, compressed sequences. We show that an existing LLM can be zip2zip-fied in 10 GPU-hours via parameter-efficient finetuning. The resulting zip2zip LLMs effectively learn to use hypertokens at inference time, reducing input and output sequence length by 20-60\%, with significant improvements in inference latency.

zip2zip: Inferenzzeit-adaptive Vokabulare für Sprachmodelle durch Token-Kompression

zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression

papers.abstract

Support