zip2zip: Vocabularios Adaptables en Tiempo de Inferencia para Modelos de Lenguaje mediante Compresión de Tokens
zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression
June 1, 2025
Autores: Saibo Geng, Nathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West
cs.AI
Resumen
La eficiencia de la tokenización juega un papel crucial en el rendimiento y el costo de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), sin embargo, la mayoría de los modelos dependen de tokenizadores estáticos optimizados para corpus de propósito general. Los vocabularios fijos de estos tokenizadores a menudo no logran adaptarse a entradas específicas de un dominio o idioma, lo que resulta en secuencias de tokens más largas y mayores costos computacionales. Presentamos zip2zip, un marco que permite a los LLMs ajustar dinámicamente el vocabulario de tokens durante la inferencia, permitiendo generar menos tokens y, por lo tanto, una inferencia más rápida. zip2zip consta de tres componentes clave: (1) un tokenizador basado en la compresión Lempel-Ziv-Welch (LZW) que comprime incrementalmente tokens en "hipertokens" reutilizables sobre la marcha; (2) una capa de embeddings que calcula embeddings para los hipertokens recién formados en tiempo de ejecución; y (3) una variante de modelado de lenguaje causal que entrena al modelo para operar en secuencias comprimidas y hipertokenizadas. Demostramos que un LLM existente puede ser adaptado a zip2zip en 10 horas de GPU mediante un ajuste fino eficiente en parámetros. Los LLMs resultantes con zip2zip aprenden efectivamente a usar hipertokens durante la inferencia, reduciendo la longitud de las secuencias de entrada y salida en un 20-60\%, con mejoras significativas en la latencia de inferencia.
English
Tokenization efficiency plays a critical role in the performance and cost of
large language models (LLMs), yet most models rely on static tokenizers
optimized for general-purpose corpora. These tokenizers' fixed vocabularies
often fail to adapt to domain- or language-specific inputs, leading to longer
token sequences and higher computational costs. We introduce zip2zip, a
framework that enables LLMs to dynamically adjust token vocabulary at inference
time, allowing for fewer generated tokens and thus faster inference. zip2zip
consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch
(LZW) compression that incrementally compresses tokens into reusable
"hypertokens" on the fly; (2) an embedding layer that computes embeddings for
newly formed hypertokens at runtime; and (3) a causal language modeling variant
that trains the model to operate on hypertokenized, compressed sequences. We
show that an existing LLM can be zip2zip-fied in 10 GPU-hours via
parameter-efficient finetuning. The resulting zip2zip LLMs effectively learn to
use hypertokens at inference time, reducing input and output sequence length by
20-60\%, with significant improvements in inference latency.