zip2zip: Vocabulários Adaptáveis em Tempo de Inferência para Modelos de Linguagem via Compressão de Tokens

Resumo

A eficiência da tokenização desempenha um papel crítico no desempenho e no custo dos grandes modelos de linguagem (LLMs, na sigla em inglês), mas a maioria dos modelos depende de tokenizadores estáticos otimizados para corpora de propósito geral. Os vocabulários fixos desses tokenizadores frequentemente falham em se adaptar a entradas específicas de domínio ou idioma, resultando em sequências de tokens mais longas e custos computacionais mais elevados. Apresentamos o zip2zip, uma estrutura que permite que LLMs ajustem dinamicamente o vocabulário de tokens durante a inferência, possibilitando a geração de menos tokens e, consequentemente, uma inferência mais rápida. O zip2zip consiste em três componentes principais: (1) um tokenizador baseado na compressão Lempel-Ziv-Welch (LZW) que comprime incrementalmente tokens em "hipertokens" reutilizáveis em tempo real; (2) uma camada de embedding que calcula embeddings para hipertokens recém-formados durante a execução; e (3) uma variante de modelagem de linguagem causal que treina o modelo para operar em sequências comprimidas e hipertokenizadas. Demonstramos que um LLM existente pode ser "zip2zip-ificado" em 10 horas de GPU por meio de ajuste fino eficiente em parâmetros. Os LLMs resultantes com zip2zip aprendem efetivamente a usar hipertokens durante a inferência, reduzindo o comprimento das sequências de entrada e saída em 20-60\%, com melhorias significativas na latência de inferência.

English

Tokenization efficiency plays a critical role in the performance and cost of large language models (LLMs), yet most models rely on static tokenizers optimized for general-purpose corpora. These tokenizers' fixed vocabularies often fail to adapt to domain- or language-specific inputs, leading to longer token sequences and higher computational costs. We introduce zip2zip, a framework that enables LLMs to dynamically adjust token vocabulary at inference time, allowing for fewer generated tokens and thus faster inference. zip2zip consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch (LZW) compression that incrementally compresses tokens into reusable "hypertokens" on the fly; (2) an embedding layer that computes embeddings for newly formed hypertokens at runtime; and (3) a causal language modeling variant that trains the model to operate on hypertokenized, compressed sequences. We show that an existing LLM can be zip2zip-fied in 10 GPU-hours via parameter-efficient finetuning. The resulting zip2zip LLMs effectively learn to use hypertokens at inference time, reducing input and output sequence length by 20-60\%, with significant improvements in inference latency.

zip2zip: Vocabulários Adaptáveis em Tempo de Inferência para Modelos de Linguagem via Compressão de Tokens

zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression

Resumo

Support