zip2zip: Inferentie-tijd Adaptieve Vocabulaires voor Taalmodellen via Tokencompressie
zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression
June 1, 2025
Auteurs: Saibo Geng, Nathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West
cs.AI
Samenvatting
Tokenisatie-efficiëntie speelt een cruciale rol in de prestaties en kosten van grote taalmodellen (LLM's), maar de meeste modellen vertrouwen op statische tokenizers die zijn geoptimaliseerd voor algemene corpora. De vaste vocabulaire van deze tokenizers past zich vaak niet aan aan domein- of taal-specifieke invoer, wat leidt tot langere tokenreeksen en hogere rekenkosten. We introduceren zip2zip, een framework dat LLM's in staat stelt om de tokenvocabulaire dynamisch aan te passen tijdens inferentie, waardoor minder tokens worden gegenereerd en de inferentie sneller verloopt. Zip2zip bestaat uit drie belangrijke componenten: (1) een tokenizer gebaseerd op Lempel-Ziv-Welch (LZW)-compressie die tokens incrementeel comprimeert tot herbruikbare "hypertokens" tijdens het proces; (2) een embeddinglaag die embeddings berekent voor nieuw gevormde hypertokens tijdens runtime; en (3) een variant van causaal taalmodelleren die het model traint om te werken op gehypertokeniseerde, gecomprimeerde sequenties. We laten zien dat een bestaand LLM in 10 GPU-uren kan worden omgezet naar zip2zip via parameter-efficiënte finetuning. De resulterende zip2zip LLM's leren effectief hypertokens te gebruiken tijdens inferentie, waardoor de invoer- en uitvoersequentielengte met 20-60\% wordt verminderd, met aanzienlijke verbeteringen in inferentielatentie.
English
Tokenization efficiency plays a critical role in the performance and cost of
large language models (LLMs), yet most models rely on static tokenizers
optimized for general-purpose corpora. These tokenizers' fixed vocabularies
often fail to adapt to domain- or language-specific inputs, leading to longer
token sequences and higher computational costs. We introduce zip2zip, a
framework that enables LLMs to dynamically adjust token vocabulary at inference
time, allowing for fewer generated tokens and thus faster inference. zip2zip
consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch
(LZW) compression that incrementally compresses tokens into reusable
"hypertokens" on the fly; (2) an embedding layer that computes embeddings for
newly formed hypertokens at runtime; and (3) a causal language modeling variant
that trains the model to operate on hypertokenized, compressed sequences. We
show that an existing LLM can be zip2zip-fied in 10 GPU-hours via
parameter-efficient finetuning. The resulting zip2zip LLMs effectively learn to
use hypertokens at inference time, reducing input and output sequence length by
20-60\%, with significant improvements in inference latency.