Дистилляция больших языковых моделей с использованием кросс-токенизатора через байтовый интерфейс

Аннотация

Дистилляция между токенизаторами (CTD) — передача знаний от учителя к ученику в языковых моделях, использующих разные токенизаторы, — остаётся в значительной степени нерешённой проблемой. Существующие подходы опираются на эвристические стратегии для согласования несовпадающих словарей, что вносит значительную сложность. В данной статье мы предлагаем простой, но эффективный базовый метод под названием байт-уровневая дистилляция (BLD), который обеспечивает CTD, работая на общем для всех токенизаторов интерфейсе — уровне байтов. Если конкретнее, мы преобразуем распределение выходных вероятностей учителя в байт-уровневые вероятности, присоединяем к модели-ученику лёгкий байт-уровневый декодерный головной модуль и проводим дистилляцию через этот общий байт-уровневый интерфейс. Несмотря на свою простоту, BLD показывает результаты, сопоставимые с — а на нескольких тестовых наборах данных превосходящие — значительно более сложные методы CTD, в широком спектре задач дистилляции для моделей размером от 1 до 8 миллиардов параметров. Наши результаты позволяют предположить, что байтовый уровень является естественной общей основой для межтокенизаторной передачи знаний, одновременно показывая, что устойчивое улучшение результатов на всех задачах и тестовых наборах остаётся труднодостижимым, что подчёркивает, что CTD по-прежнему является открытой проблемой.

English

Cross-tokenizer distillation (CTD), the transfer of knowledge from a teacher to a student language model when the two use different tokenizers, remains a largely unsolved problem. Existing approaches rely on heuristic strategies to align mismatched vocabularies, introducing considerable complexity. In this paper, we propose a simple but effective baseline called Byte-Level Distillation (BLD) which enables CTD by operating at a common interface across tokenizers: the byte level. In more detail, we convert the teacher's output distribution to byte-level probabilities, attach a lightweight byte-level decoder head to the student, and distill through this shared byte-level interface. Despite its simplicity, BLD performs competitively with--and on several benchmarks surpasses--significantly more sophisticated CTD methods, across a range of distillation tasks with models from 1B to 8B parameters. Our results suggest that the byte level is a natural common ground for cross-tokenizer knowledge transfer, while also highlighting that consistent improvements across all tasks and benchmarks remain elusive, underscoring that CTD is still an open problem.

Дистилляция больших языковых моделей с использованием кросс-токенизатора через байтовый интерфейс

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Аннотация

Support