zip2zip: Vocabolari Adattivi al Momento dell'Inferenza per Modelli Linguistici tramite Compressione di Token

Abstract

L'efficienza della tokenizzazione svolge un ruolo cruciale nelle prestazioni e nei costi dei grandi modelli linguistici (LLM), eppure la maggior parte dei modelli si affida a tokenizer statici ottimizzati per corpora generici. I vocabolari fissi di questi tokenizer spesso non riescono ad adattarsi a input specifici di dominio o lingua, portando a sequenze di token più lunghe e costi computazionali più elevati. Introduciamo zip2zip, un framework che consente agli LLM di adattare dinamicamente il vocabolario dei token durante l'inferenza, permettendo così la generazione di meno token e un'inferenza più veloce. zip2zip è composto da tre componenti chiave: (1) un tokenizer basato sulla compressione Lempel-Ziv-Welch (LZW) che comprime incrementalmente i token in "hypertoken" riutilizzabili al volo; (2) uno strato di embedding che calcola gli embedding per gli hypertoken appena formati durante l'esecuzione; e (3) una variante di modellazione linguistica causale che addestra il modello a operare su sequenze compresse e hypertokenizzate. Dimostriamo che un LLM esistente può essere "zip2zip-ificato" in 10 ore di GPU tramite un fine-tuning efficiente dei parametri. I LLM risultanti con zip2zip imparano efficacemente a utilizzare gli hypertoken durante l'inferenza, riducendo la lunghezza delle sequenze di input e output del 20-60\%, con significativi miglioramenti nella latenza di inferenza.

English

Tokenization efficiency plays a critical role in the performance and cost of large language models (LLMs), yet most models rely on static tokenizers optimized for general-purpose corpora. These tokenizers' fixed vocabularies often fail to adapt to domain- or language-specific inputs, leading to longer token sequences and higher computational costs. We introduce zip2zip, a framework that enables LLMs to dynamically adjust token vocabulary at inference time, allowing for fewer generated tokens and thus faster inference. zip2zip consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch (LZW) compression that incrementally compresses tokens into reusable "hypertokens" on the fly; (2) an embedding layer that computes embeddings for newly formed hypertokens at runtime; and (3) a causal language modeling variant that trains the model to operate on hypertokenized, compressed sequences. We show that an existing LLM can be zip2zip-fied in 10 GPU-hours via parameter-efficient finetuning. The resulting zip2zip LLMs effectively learn to use hypertokens at inference time, reducing input and output sequence length by 20-60\%, with significant improvements in inference latency.

zip2zip: Vocabolari Adattivi al Momento dell'Inferenza per Modelli Linguistici tramite Compressione di Token

zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression

Abstract

Support