Protéger les modèles de langage contre la distillation non autorisée par réécriture de traces

Résumé

La distillation des connaissances est une technique largement adoptée pour transférer les capacités des grands modèles de langage (LLM) vers des modèles étudiants plus petits et plus efficaces. Cependant, l'utilisation non autorisée de la distillation de connaissances tire un avantage injuste des efforts et des coûts considérables engagés dans le développement des modèles de pointe. Nous étudions des méthodes pour modifier les traces de raisonnement générées par l'enseignant afin d'atteindre deux objectifs visant à dissuader la distillation non autorisée : (1) l'anti-distillation, c'est-à-dire la dégradation de l'utilité pédagogique des réponses aux requêtes, et (2) le tatouage d'API, qui intègre des signatures vérifiables dans les modèles étudiants. Nous présentons plusieurs approches pour réécrire dynamiquement les sorties de raisonnement d'un enseignant tout en préservant l'exactitude des réponses et la cohérence sémantique. Deux d'entre elles exploitent les capacités de réécriture des LLM, tandis que d'autres utilisent des techniques basées sur le gradient. Nos expériences montrent qu'une approche simple de réécriture par instruction atteint un fort effet d'anti-distillation tout en maintenant, voire en améliorant, les performances de l'enseignant. De plus, nous montrons que notre approche de réécriture permet également d'incorporer des tatouages qui peuvent être détectés de manière fiable avec pratiquement aucune fausse alarme. Notre code est disponible à l'adresse https://github.com/xhOwenMa/trace-rewriting.

English

Knowledge distillation is a widely adopted technique for transferring capabilities from LLMs to smaller, more efficient student models. However, unauthorized use of knowledge distillation takes unfair advantage of the considerable effort and cost put into developing frontier models. We investigate methods for modifying teacher-generated reasoning traces to achieve two objectives that deter unauthorized distillation: (1) anti-distillation, or degrading the training usefulness of query responses, and (2) API watermarking, which embeds verifiable signatures in student models. We introduce several approaches for dynamically rewriting a teacher's reasoning outputs while preserving answer correctness and semantic coherence. Two of these leverage the rewriting capabilities of LLMs, while others use gradient-based techniques. Our experiments show that a simple instruction-based rewriting approach achieves a strong anti-distillation effect while maintaining or even improving teacher performance. Furthermore, we show that our rewriting approach also enables embedding watermarks that can be reliably detected with essentially no false alarms. Our code is available at https://github.com/xhOwenMa/trace-rewriting.

Protéger les modèles de langage contre la distillation non autorisée par réécriture de traces

Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Résumé

Support