Distilación de LLM entre Tokenizadores mediante una Interfaz a Nivel de Byte
Cross-Tokenizer LLM Distillation through a Byte-Level Interface
April 13, 2026
Autores: Avyav Kumar Singh, Yen-Chen Wu, Alexandru Cioba, Alberto Bernacchia, Davide Buffelli
cs.AI
Resumen
La destilación entre tokenizadores diferentes (CTD), la transferencia de conocimiento de un modelo lingüístico maestro a uno estudiante cuando ambos utilizan tokenizadores distintos, sigue siendo un problema en gran medida sin resolver. Los enfoques existentes dependen de estrategias heurísticas para alinear vocabularios no coincidentes, introduciendo una complejidad considerable. En este artículo, proponemos una base de referencia simple pero efectiva llamada Destilación a Nivel de Byte (BLD) que permite la CTD operando en una interfaz común entre tokenizadores: el nivel de byte. En concreto, convertimos la distribución de salida del maestro a probabilidades a nivel de byte, acoplamos un cabezal decodificador ligero a nivel de byte al estudiante y realizamos la destilación a través de esta interfaz compartida a nivel de byte. A pesar de su simplicidad, BLD rinde de forma competitiva con—y en varios benchmarks supera—métodos de CTD significativamente más sofisticados, en una variedad de tareas de destilación con modelos de 1B a 8B parámetros. Nuestros resultados sugieren que el nivel de byte es un terreno natural común para la transferencia de conocimiento entre tokenizadores, al mismo tiempo que destacan que las mejoras consistentes en todas las tareas y benchmarks siguen siendo esquivas, subrayando que la CTD sigue siendo un problema abierto.
English
Cross-tokenizer distillation (CTD), the transfer of knowledge from a teacher to a student language model when the two use different tokenizers, remains a largely unsolved problem. Existing approaches rely on heuristic strategies to align mismatched vocabularies, introducing considerable complexity. In this paper, we propose a simple but effective baseline called Byte-Level Distillation (BLD) which enables CTD by operating at a common interface across tokenizers: the byte level. In more detail, we convert the teacher's output distribution to byte-level probabilities, attach a lightweight byte-level decoder head to the student, and distill through this shared byte-level interface. Despite its simplicity, BLD performs competitively with--and on several benchmarks surpasses--significantly more sophisticated CTD methods, across a range of distillation tasks with models from 1B to 8B parameters. Our results suggest that the byte level is a natural common ground for cross-tokenizer knowledge transfer, while also highlighting that consistent improvements across all tasks and benchmarks remain elusive, underscoring that CTD is still an open problem.