Distillatie van Taalmodellen met Cross-Tokenizers via een Byte-Level Interface

Samenvatting

Cross-tokenizer distillatie (CTD), de overdracht van kennis van een leraar- naar een leerling-taalmodel wanneer deze twee verschillende tokenizers gebruiken, blijft een grotendeels onopgelost probleem. Bestaande benaderingen steunen op heuristische strategieën om niet-overeenkomende vocabulaires uit te lijnen, wat aanzienlijke complexiteit introduceert. In dit artikel stellen we een eenvoudige maar effectieve baseline voor, genaamd Byte-Level Distillatie (BLD), die CTD mogelijk maakt door te opereren op een gemeenschappelijk interface tussen tokenizers: het byteniveau. Concreet zetten we de uitvoerdistributie van de leraar om in byteniveau-kansen, koppelen een lichtgewicht byteniveau-decodeerkop aan de leerling, en distilleren via deze gedeelde byteniveau-interface. Ondanks zijn eenvoud presteert BLD competitief met – en overtreft op verschillende benchmarks – aanzienlijk complexere CTD-methoden, over een reeks distillatietaken heen met modellen van 1B tot 8B parameters. Onze resultaten suggereren dat het byteniveau een natuurlijk gemeenschappelijk terrein is voor cross-tokenizer kennisoverdracht, maar benadrukken tegelijkertijd dat consistente verbeteringen over alle taken en benchmarks ongrijpbaar blijven, wat onderstreept dat CTD nog steeds een open probleem is.

English

Cross-tokenizer distillation (CTD), the transfer of knowledge from a teacher to a student language model when the two use different tokenizers, remains a largely unsolved problem. Existing approaches rely on heuristic strategies to align mismatched vocabularies, introducing considerable complexity. In this paper, we propose a simple but effective baseline called Byte-Level Distillation (BLD) which enables CTD by operating at a common interface across tokenizers: the byte level. In more detail, we convert the teacher's output distribution to byte-level probabilities, attach a lightweight byte-level decoder head to the student, and distill through this shared byte-level interface. Despite its simplicity, BLD performs competitively with--and on several benchmarks surpasses--significantly more sophisticated CTD methods, across a range of distillation tasks with models from 1B to 8B parameters. Our results suggest that the byte level is a natural common ground for cross-tokenizer knowledge transfer, while also highlighting that consistent improvements across all tasks and benchmarks remain elusive, underscoring that CTD is still an open problem.

Distillatie van Taalmodellen met Cross-Tokenizers via een Byte-Level Interface

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Samenvatting

Support