Distillazione di LLM tramite Cross-Tokenizer attraverso un'Interfaccia a Livello di Byte

Abstract

La distillazione cross-tokenizer (CTD), ovvero il trasferimento di conoscenza da un modello linguistico insegnante a uno studente quando i due utilizzano tokenizer diversi, rimane un problema in gran parte irrisolto. Gli approcci esistenti si basano su strategie euristiche per allineare vocabolari non corrispondenti, introducendo una notevole complessità. In questo articolo, proponiamo una baseline semplice ma efficace chiamata Byte-Level Distillation (BLD), che abilita la CTD operando a un'interfaccia comune tra i tokenizer: il livello dei byte. Nello specifico, convertiamo la distribuzione di output dell'insegnante in probabilità a livello di byte, colleghiamo un testina di decodifica leggera a livello di byte allo studente, e distilliamo attraverso questa interfaccia condivisa a livello di byte. Nonostante la sua semplicità, la BLD offre prestazioni competitive con – e su diversi benchmark supera – metodi CTD significativamente più sofisticati, in una serie di task di distillazione con modelli da 1B a 8B di parametri. I nostri risultati suggeriscono che il livello dei byte è un terreno comune naturale per il trasferimento di conoscenza cross-tokenizer, evidenziando al contempo che miglioramenti consistenti su tutti i task e i benchmark rimangono elusivi, sottolineando che la CTD è ancora un problema aperto.

English

Cross-tokenizer distillation (CTD), the transfer of knowledge from a teacher to a student language model when the two use different tokenizers, remains a largely unsolved problem. Existing approaches rely on heuristic strategies to align mismatched vocabularies, introducing considerable complexity. In this paper, we propose a simple but effective baseline called Byte-Level Distillation (BLD) which enables CTD by operating at a common interface across tokenizers: the byte level. In more detail, we convert the teacher's output distribution to byte-level probabilities, attach a lightweight byte-level decoder head to the student, and distill through this shared byte-level interface. Despite its simplicity, BLD performs competitively with--and on several benchmarks surpasses--significantly more sophisticated CTD methods, across a range of distillation tasks with models from 1B to 8B parameters. Our results suggest that the byte level is a natural common ground for cross-tokenizer knowledge transfer, while also highlighting that consistent improvements across all tasks and benchmarks remain elusive, underscoring that CTD is still an open problem.

Distillazione di LLM tramite Cross-Tokenizer attraverso un'Interfaccia a Livello di Byte

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Abstract

Support