AdaptiVocab: Aprimorando a Eficiência de LLMs em Domínios Específicos por meio de Adaptação Leve de VocabulárioAdaptiVocab: Enhancing LLM Efficiency in Focused Domains through
Lightweight Vocabulary Adaptation
Modelos de Linguagem de Grande Escala (LLMs) demonstraram uma versatilidade impressionante como modelos de propósito geral. No entanto, sua ampla aplicabilidade vem com um alto custo de sobrecarga computacional, especialmente na decodificação autorregressiva, onde cada etapa requer uma passagem direta. Em cenários específicos de domínio, as capacidades de propósito geral são desnecessárias e podem ser trocadas por eficiência. Neste trabalho, adotamos uma perspectiva inovadora sobre adaptação de domínio, reduzindo a latência e os custos computacionais ao adaptar o vocabulário a domínios de interesse específicos. Introduzimos o AdaptiVocab, uma abordagem de ponta a ponta para adaptação de vocabulário, projetada para aumentar a eficiência dos LLMs em domínios de baixo recurso. O AdaptiVocab pode ser aplicado a qualquer tokenizador e arquitetura, modificando o vocabulário ao substituir tokens por tokens baseados em n-gramas específicos do domínio, reduzindo assim o número de tokens necessários tanto para o processamento de entrada quanto para a geração de saída. O AdaptiVocab inicializa novos embeddings de n-tokens usando uma combinação ponderada exponencialmente de embeddings existentes e emprega uma fase de ajuste fino leve que pode ser realizada de forma eficiente em uma única GPU. Avaliamos dois LLMs de 7B em três domínios de nicho, medindo eficiência, qualidade de geração e desempenho em tarefas finais. Nossos resultados mostram que o AdaptiVocab reduz o uso de tokens em mais de 25% sem comprometer o desempenho.