LLM-Distillation über Tokenizer-Grenzen hinweg durch eine Byte-basierte Schnittstelle

Zusammenfassung

Cross-Tokenizer-Distillation (CTD), also bekannt als die Wissensweitergabe von einem Lehrer- an ein Schüler-Sprachmodell, wenn beide unterschiedliche Tokenizer verwenden, ist nach wie vor ein weitgehend ungelöstes Problem. Bestehende Ansätze stützen sich auf heuristische Strategien zur Ausrichtung nicht übereinstimmender Vokabulare, was erhebliche Komplexität mit sich bringt. In diesem Beitrag schlagen wir eine einfache, aber effektive Baseline namens Byte-Level-Distillation (BLD) vor, die CTD ermöglicht, indem sie auf einer gemeinsamen Schnittstelle über Tokenizer hinweg operiert: der Byte-Ebene. Im Einzelnen konvertieren wir die Ausgabeverteilung des Lehrers in Byte-Level-Wahrscheinlichkeiten, fügen dem Schüler einen leichtgewichtigen Byte-Level-Decoder-Head hinzu und vollziehen die Distillation über diese gemeinsame Byte-Level-Schnittstelle. Trotz ihrer Einfachheit schneidet BLD bei einer Reihe von Distillationsaufgaben mit Modellen von 1B bis 8B Parametern wettbewerbsfähig mit – und übertrifft auf mehreren Benchmarks – deutlich komplexerere CTD-Methoden. Unsere Ergebnisse legen nahe, dass die Byte-Ebene ein natürlicher gemeinsamer Nenner für tokenizerübergreifenden Wissenstransfer ist, zeigen aber auch, dass konsistente Verbesserungen über alle Aufgaben und Benchmarks hinweg schwer zu erreichen bleiben, was unterstreicht, dass CTD nach wie vor ein offenes Problem darstellt.

English

Cross-tokenizer distillation (CTD), the transfer of knowledge from a teacher to a student language model when the two use different tokenizers, remains a largely unsolved problem. Existing approaches rely on heuristic strategies to align mismatched vocabularies, introducing considerable complexity. In this paper, we propose a simple but effective baseline called Byte-Level Distillation (BLD) which enables CTD by operating at a common interface across tokenizers: the byte level. In more detail, we convert the teacher's output distribution to byte-level probabilities, attach a lightweight byte-level decoder head to the student, and distill through this shared byte-level interface. Despite its simplicity, BLD performs competitively with--and on several benchmarks surpasses--significantly more sophisticated CTD methods, across a range of distillation tasks with models from 1B to 8B parameters. Our results suggest that the byte level is a natural common ground for cross-tokenizer knowledge transfer, while also highlighting that consistent improvements across all tasks and benchmarks remain elusive, underscoring that CTD is still an open problem.

LLM-Distillation über Tokenizer-Grenzen hinweg durch eine Byte-basierte Schnittstelle

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Zusammenfassung

Support