zip2zip: Vocabulários Adaptáveis em Tempo de Inferência para Modelos de Linguagem via Compressão de Tokens
zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression
June 1, 2025
Autores: Saibo Geng, Nathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West
cs.AI
Resumo
A eficiência da tokenização desempenha um papel crítico no desempenho e no custo dos grandes modelos de linguagem (LLMs, na sigla em inglês), mas a maioria dos modelos depende de tokenizadores estáticos otimizados para corpora de propósito geral. Os vocabulários fixos desses tokenizadores frequentemente falham em se adaptar a entradas específicas de domínio ou idioma, resultando em sequências de tokens mais longas e custos computacionais mais elevados. Apresentamos o zip2zip, uma estrutura que permite que LLMs ajustem dinamicamente o vocabulário de tokens durante a inferência, possibilitando a geração de menos tokens e, consequentemente, uma inferência mais rápida. O zip2zip consiste em três componentes principais: (1) um tokenizador baseado na compressão Lempel-Ziv-Welch (LZW) que comprime incrementalmente tokens em "hipertokens" reutilizáveis em tempo real; (2) uma camada de embedding que calcula embeddings para hipertokens recém-formados durante a execução; e (3) uma variante de modelagem de linguagem causal que treina o modelo para operar em sequências comprimidas e hipertokenizadas. Demonstramos que um LLM existente pode ser "zip2zip-ificado" em 10 horas de GPU por meio de ajuste fino eficiente em parâmetros. Os LLMs resultantes com zip2zip aprendem efetivamente a usar hipertokens durante a inferência, reduzindo o comprimento das sequências de entrada e saída em 20-60\%, com melhorias significativas na latência de inferência.
English
Tokenization efficiency plays a critical role in the performance and cost of
large language models (LLMs), yet most models rely on static tokenizers
optimized for general-purpose corpora. These tokenizers' fixed vocabularies
often fail to adapt to domain- or language-specific inputs, leading to longer
token sequences and higher computational costs. We introduce zip2zip, a
framework that enables LLMs to dynamically adjust token vocabulary at inference
time, allowing for fewer generated tokens and thus faster inference. zip2zip
consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch
(LZW) compression that incrementally compresses tokens into reusable
"hypertokens" on the fly; (2) an embedding layer that computes embeddings for
newly formed hypertokens at runtime; and (3) a causal language modeling variant
that trains the model to operate on hypertokenized, compressed sequences. We
show that an existing LLM can be zip2zip-fied in 10 GPU-hours via
parameter-efficient finetuning. The resulting zip2zip LLMs effectively learn to
use hypertokens at inference time, reducing input and output sequence length by
20-60\%, with significant improvements in inference latency.