Protegendo Modelos de Linguagem Contra a Destilação Não Autorizada por Meio de Reescrevimento de Traços

Resumo

A destilação de conhecimento é uma técnica amplamente adotada para transferir capacidades de LLMs para modelos estudantis menores e mais eficientes. No entanto, o uso não autorizado da destilação de conhecimento tira vantagem injusta do considerável esforço e custo investidos no desenvolvimento de modelos de fronteira. Investigamos métodos para modificar traços de raciocínio gerados pelo professor para alcançar dois objetivos que impedem a destilação não autorizada: (1) antidestilação, ou degradar a utilidade para treinamento das respostas a consultas, e (2) marcação d'água de API, que incorpora assinaturas verificáveis em modelos estudantis. Introduzimos várias abordagens para reescrever dinamicamente os resultados de raciocínio de um professor, preservando a correção da resposta e a coerência semântica. Duas delas aproveitam as capacidades de reescrita dos LLMs, enquanto outras usam técnicas baseadas em gradiente. Nossos experimentos mostram que uma simples abordagem de reescrita baseada em instruções alcança um forte efeito de antidestilação, mantendo ou mesmo melhorando o desempenho do professor. Além disso, mostramos que nossa abordagem de reescrita também permite incorporar marcas d'água que podem ser detectadas de forma confiável com essencialmente nenhum falso alarme. Nosso código está disponível em https://github.com/xhOwenMa/trace-rewriting.

English

Knowledge distillation is a widely adopted technique for transferring capabilities from LLMs to smaller, more efficient student models. However, unauthorized use of knowledge distillation takes unfair advantage of the considerable effort and cost put into developing frontier models. We investigate methods for modifying teacher-generated reasoning traces to achieve two objectives that deter unauthorized distillation: (1) anti-distillation, or degrading the training usefulness of query responses, and (2) API watermarking, which embeds verifiable signatures in student models. We introduce several approaches for dynamically rewriting a teacher's reasoning outputs while preserving answer correctness and semantic coherence. Two of these leverage the rewriting capabilities of LLMs, while others use gradient-based techniques. Our experiments show that a simple instruction-based rewriting approach achieves a strong anti-distillation effect while maintaining or even improving teacher performance. Furthermore, we show that our rewriting approach also enables embedding watermarks that can be reliably detected with essentially no false alarms. Our code is available at https://github.com/xhOwenMa/trace-rewriting.

Protegendo Modelos de Linguagem Contra a Destilação Não Autorizada por Meio de Reescrevimento de Traços

Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Resumo

Support