Distillation de Modèles de Langage à Grande Échelle par Interface au Niveau de l'Octet entre Tokenizers

Résumé

La distillation inter-tokeniseur (CTD), soit le transfert de connaissances d'un modèle de langage enseignant vers un modèle étudiant lorsque les deux utilisent des tokeniseurs différents, reste un problème largement non résolu. Les approches existantes reposent sur des stratégies heuristiques pour aligner des vocabulaires incompatibles, introduisant une complexité considérable. Dans cet article, nous proposons une base de référence simple mais efficace appelée distillation au niveau des octets (BLD), qui permet la CTD en opérant à une interface commune aux tokeniseurs : le niveau octet. Plus précisément, nous convertissons la distribution de sortie de l'enseignant en probabilités au niveau des octets, attachons une tête de décodeur légère au niveau des octets à l'étudiant, et effectuons la distillation via cette interface octet partagée. Malgré sa simplicité, BLD offre des performances compétitives avec – et sur plusieurs benchmarks, dépasse – des méthodes CTD bien plus sophistiquées, sur une gamme de tâches de distillation avec des modèles de 1 à 8 milliards de paramètres. Nos résultats suggèrent que le niveau octet constitue un terrain d'entente naturel pour le transfert de connaissances inter-tokeniseur, tout en soulignant que des améliorations constantes sur toutes les tâches et tous les benchmarks restent insaisissables, confirmant que la CTD est toujours un problème ouvert.

English

Cross-tokenizer distillation (CTD), the transfer of knowledge from a teacher to a student language model when the two use different tokenizers, remains a largely unsolved problem. Existing approaches rely on heuristic strategies to align mismatched vocabularies, introducing considerable complexity. In this paper, we propose a simple but effective baseline called Byte-Level Distillation (BLD) which enables CTD by operating at a common interface across tokenizers: the byte level. In more detail, we convert the teacher's output distribution to byte-level probabilities, attach a lightweight byte-level decoder head to the student, and distill through this shared byte-level interface. Despite its simplicity, BLD performs competitively with--and on several benchmarks surpasses--significantly more sophisticated CTD methods, across a range of distillation tasks with models from 1B to 8B parameters. Our results suggest that the byte level is a natural common ground for cross-tokenizer knowledge transfer, while also highlighting that consistent improvements across all tasks and benchmarks remain elusive, underscoring that CTD is still an open problem.

Distillation de Modèles de Langage à Grande Échelle par Interface au Niveau de l'Octet entre Tokenizers

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Résumé

Support