AdaptiVocab: Повышение эффективности крупных языковых моделей в специализированных областях через легковесную адаптацию словаря
AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation
March 25, 2025
Авторы: Itay Nakash, Nitay Calderon, Eyal Ben David, Elad Hoffer, Roi Reichart
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющую универсальность в качестве моделей общего назначения. Однако их широкая применимость сопровождается высокими вычислительными затратами, особенно при авторегрессивном декодировании, где каждый шаг требует выполнения прямого прохода. В специализированных областях общие возможности избыточны и могут быть заменены на повышение эффективности. В данной работе мы предлагаем новый подход к адаптации доменов, снижая задержки и вычислительные затраты за счет адаптации словаря к узким областям интересов. Мы представляем AdaptiVocab — сквозной метод адаптации словаря, разработанный для повышения эффективности LLM в условиях ограниченных ресурсов. AdaptiVocab может быть применен к любому токенизатору и архитектуре, модифицируя словарь путем замены токенов на доменно-специфичные токены на основе n-грамм, что сокращает количество токенов, необходимых как для обработки входных данных, так и для генерации выходных. AdaptiVocab инициализирует новые вложения для n-токенов с использованием экспоненциально взвешенной комбинации существующих вложений и включает легковесный этап тонкой настройки, который может быть эффективно выполнен на одном GPU. Мы оцениваем две 7B LLM в трех узких доменах, анализируя эффективность, качество генерации и производительность на конечных задачах. Наши результаты показывают, что AdaptiVocab сокращает использование токенов более чем на 25% без ущерба для производительности.
English
Large Language Models (LLMs) have shown impressive versatility as general
purpose models. However, their broad applicability comes at a high-cost
computational overhead, particularly in auto-regressive decoding where each
step requires a forward pass. In domain-specific settings, general-purpose
capabilities are unnecessary and can be exchanged for efficiency. In this work,
we take a novel perspective on domain adaptation, reducing latency and
computational costs by adapting the vocabulary to focused domains of interest.
We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation,
designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be
applied to any tokenizer and architecture, modifying the vocabulary by
replacing tokens with domain-specific n-gram-based tokens, thereby reducing the
number of tokens required for both input processing and output generation.
AdaptiVocab initializes new n-token embeddings using an exponentially weighted
combination of existing embeddings and employs a lightweight fine-tuning phase
that can be efficiently performed on a single GPU. We evaluate two 7B LLMs
across three niche domains, assessing efficiency, generation quality, and
end-task performance. Our results show that AdaptiVocab reduces token usage by
over 25% without compromising performanceSummary
AI-Generated Summary