zip2zip : Vocabulaires adaptatifs en temps d'inférence pour les modèles de langage via la compression de tokens
zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression
June 1, 2025
Auteurs: Saibo Geng, Nathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West
cs.AI
Résumé
L'efficacité de la tokenisation joue un rôle crucial dans les performances et le coût des grands modèles de langage (LLMs), mais la plupart des modèles s'appuient sur des tokenizers statiques optimisés pour des corpus à usage général. Les vocabulaires fixes de ces tokenizers échouent souvent à s'adapter aux entrées spécifiques à un domaine ou à une langue, ce qui entraîne des séquences de tokens plus longues et des coûts de calcul plus élevés. Nous présentons zip2zip, un cadre qui permet aux LLMs d'ajuster dynamiquement le vocabulaire de tokens au moment de l'inférence, permettant ainsi de générer moins de tokens et d'accélérer l'inférence. zip2zip se compose de trois éléments clés : (1) un tokenizer basé sur la compression Lempel-Ziv-Welch (LZW) qui compresse de manière incrémentielle les tokens en "hypertokens" réutilisables à la volée ; (2) une couche d'embedding qui calcule les embeddings pour les hypertokens nouvellement formés au moment de l'exécution ; et (3) une variante de modélisation de langage causale qui entraîne le modèle à fonctionner sur des séquences compressées et hypertokenisées. Nous montrons qu'un LLM existant peut être "zip2zip-fié" en 10 heures GPU via un fine-tuning efficace en paramètres. Les LLMs zip2zip résultants apprennent efficacement à utiliser les hypertokens au moment de l'inférence, réduisant la longueur des séquences d'entrée et de sortie de 20 à 60 %, avec des améliorations significatives en termes de latence d'inférence.
English
Tokenization efficiency plays a critical role in the performance and cost of
large language models (LLMs), yet most models rely on static tokenizers
optimized for general-purpose corpora. These tokenizers' fixed vocabularies
often fail to adapt to domain- or language-specific inputs, leading to longer
token sequences and higher computational costs. We introduce zip2zip, a
framework that enables LLMs to dynamically adjust token vocabulary at inference
time, allowing for fewer generated tokens and thus faster inference. zip2zip
consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch
(LZW) compression that incrementally compresses tokens into reusable
"hypertokens" on the fly; (2) an embedding layer that computes embeddings for
newly formed hypertokens at runtime; and (3) a causal language modeling variant
that trains the model to operate on hypertokenized, compressed sequences. We
show that an existing LLM can be zip2zip-fied in 10 GPU-hours via
parameter-efficient finetuning. The resulting zip2zip LLMs effectively learn to
use hypertokens at inference time, reducing input and output sequence length by
20-60\%, with significant improvements in inference latency.