Защита языковых моделей от несанкционированного дистилляции с помощью перезаписи трассировки
Protecting Language Models Against Unauthorized Distillation through Trace Rewriting
April 16, 2026
Авторы: Xinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik
cs.AI
Аннотация
Дистилляция знаний — широко применяемая техника передачи возможностей больших языковых моделей (LLM) более компактным и эффективным студенческим моделям. Однако несанкционированное использование дистилляции знаний несправедливо использует значительные усилия и затраты, вложенные в разработку передовых моделей. Мы исследуем методы модификации трасс рассуждений, сгенерированных учителем, для достижения двух целей, препятствующих несанкционированной дистилляции: (1) анти-дистилляция, то есть снижение полезности ответов на запросы для обучения, и (2) водяные знаки API, которые внедряют верифицируемые подписи в студенческие модели. Мы представляем несколько подходов к динамическому переписыванию выводов рассуждений учителя с сохранением правильности ответа и семантической связности. Два из них используют возможности LLM по переписыванию текста, а другие — градиентные методы. Наши эксперименты показывают, что простой подход к переписыванию на основе инструкций достигает сильного анти-дистилляционного эффекта, сохраняя или даже улучшая производительность учителя. Кроме того, мы демонстрируем, что наш подход к переписыванию также позволяет внедрять водяные знаки, которые можно надежно обнаружить практически без ложных срабатываний. Наш код доступен по адресу https://github.com/xhOwenMa/trace-rewriting.
English
Knowledge distillation is a widely adopted technique for transferring capabilities from LLMs to smaller, more efficient student models. However, unauthorized use of knowledge distillation takes unfair advantage of the considerable effort and cost put into developing frontier models. We investigate methods for modifying teacher-generated reasoning traces to achieve two objectives that deter unauthorized distillation: (1) anti-distillation, or degrading the training usefulness of query responses, and (2) API watermarking, which embeds verifiable signatures in student models. We introduce several approaches for dynamically rewriting a teacher's reasoning outputs while preserving answer correctness and semantic coherence. Two of these leverage the rewriting capabilities of LLMs, while others use gradient-based techniques. Our experiments show that a simple instruction-based rewriting approach achieves a strong anti-distillation effect while maintaining or even improving teacher performance. Furthermore, we show that our rewriting approach also enables embedding watermarks that can be reliably detected with essentially no false alarms. Our code is available at https://github.com/xhOwenMa/trace-rewriting.