AdaptiVocab: Aprimorando a Eficiência de LLMs em Domínios Específicos por meio de Adaptação Leve de Vocabulário
AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation
March 25, 2025
Autores: Itay Nakash, Nitay Calderon, Eyal Ben David, Elad Hoffer, Roi Reichart
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) demonstraram uma versatilidade impressionante como modelos de propósito geral. No entanto, sua ampla aplicabilidade vem com um alto custo de sobrecarga computacional, especialmente na decodificação autorregressiva, onde cada etapa requer uma passagem direta. Em cenários específicos de domínio, as capacidades de propósito geral são desnecessárias e podem ser trocadas por eficiência. Neste trabalho, adotamos uma perspectiva inovadora sobre adaptação de domínio, reduzindo a latência e os custos computacionais ao adaptar o vocabulário a domínios de interesse específicos. Introduzimos o AdaptiVocab, uma abordagem de ponta a ponta para adaptação de vocabulário, projetada para aumentar a eficiência dos LLMs em domínios de baixo recurso. O AdaptiVocab pode ser aplicado a qualquer tokenizador e arquitetura, modificando o vocabulário ao substituir tokens por tokens baseados em n-gramas específicos do domínio, reduzindo assim o número de tokens necessários tanto para o processamento de entrada quanto para a geração de saída. O AdaptiVocab inicializa novos embeddings de n-tokens usando uma combinação ponderada exponencialmente de embeddings existentes e emprega uma fase de ajuste fino leve que pode ser realizada de forma eficiente em uma única GPU. Avaliamos dois LLMs de 7B em três domínios de nicho, medindo eficiência, qualidade de geração e desempenho em tarefas finais. Nossos resultados mostram que o AdaptiVocab reduz o uso de tokens em mais de 25% sem comprometer o desempenho.
English
Large Language Models (LLMs) have shown impressive versatility as general
purpose models. However, their broad applicability comes at a high-cost
computational overhead, particularly in auto-regressive decoding where each
step requires a forward pass. In domain-specific settings, general-purpose
capabilities are unnecessary and can be exchanged for efficiency. In this work,
we take a novel perspective on domain adaptation, reducing latency and
computational costs by adapting the vocabulary to focused domains of interest.
We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation,
designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be
applied to any tokenizer and architecture, modifying the vocabulary by
replacing tokens with domain-specific n-gram-based tokens, thereby reducing the
number of tokens required for both input processing and output generation.
AdaptiVocab initializes new n-token embeddings using an exponentially weighted
combination of existing embeddings and employs a lightweight fine-tuning phase
that can be efficiently performed on a single GPU. We evaluate two 7B LLMs
across three niche domains, assessing efficiency, generation quality, and
end-task performance. Our results show that AdaptiVocab reduces token usage by
over 25% without compromising performanceSummary
AI-Generated Summary