Distilação de LLM entre Tokenizadores por meio de uma Interface em Nível de Byte

Resumo

A destilação entre tokenizadores diferentes (CTD), a transferência de conhecimento de um modelo de linguagem professor para um aluno quando os dois utilizam tokenizadores distintos, permanece um problema em grande parte não resolvido. As abordagens existentes dependem de estratégias heurísticas para alinhar vocabulários incompatíveis, introduzindo uma complexidade considerável. Neste artigo, propomos uma linha de base simples, mas eficaz, denominada Destilação em Nível de Byte (BLD), que permite a CTD ao operar numa interface comum entre tokenizadores: o nível do byte. Em mais detalhe, convertemos a distribuição de saída do professor em probabilidades a nível de byte, acoplamos um cabeçote decodificador leve de nível de byte ao aluno e realizamos a destilação através desta interface compartilhada de bytes. Apesar da sua simplicidade, a BLD apresenta um desempenho competitivo com – e em várias benchmarks supera – métodos de CTD significativamente mais sofisticados, numa variedade de tarefas de destilação com modelos que variam de 1B a 8B de parâmetros. Os nossos resultados sugerem que o nível de byte é um terreno natural comum para a transferência de conhecimento entre tokenizadores, ao mesmo tempo que destacam que melhorias consistentes em todas as tarefas e benchmarks permanecem elusivas, sublinhando que a CTD ainda é um problema em aberto.

English

Cross-tokenizer distillation (CTD), the transfer of knowledge from a teacher to a student language model when the two use different tokenizers, remains a largely unsolved problem. Existing approaches rely on heuristic strategies to align mismatched vocabularies, introducing considerable complexity. In this paper, we propose a simple but effective baseline called Byte-Level Distillation (BLD) which enables CTD by operating at a common interface across tokenizers: the byte level. In more detail, we convert the teacher's output distribution to byte-level probabilities, attach a lightweight byte-level decoder head to the student, and distill through this shared byte-level interface. Despite its simplicity, BLD performs competitively with--and on several benchmarks surpasses--significantly more sophisticated CTD methods, across a range of distillation tasks with models from 1B to 8B parameters. Our results suggest that the byte level is a natural common ground for cross-tokenizer knowledge transfer, while also highlighting that consistent improvements across all tasks and benchmarks remain elusive, underscoring that CTD is still an open problem.

Distilação de LLM entre Tokenizadores por meio de uma Interface em Nível de Byte

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Resumo

Support