Schutz von Sprachmodellen vor unautorisiertem Distillation durch Trace-Rewriting

Zusammenfassung

Wissensdistillation ist eine weit verbreitete Technik zur Übertragung von Fähigkeiten von großen Sprachmodellen (LLMs) auf kleinere, effizientere Schüler-Modelle. Die unbefugte Nutzung von Wissensdistillation macht sich jedoch den erheblichen Aufwand und die Kosten für die Entwicklung von Spitzenmodellen auf unfaire Weise zunutze. Wir untersuchen Methoden zur Modifikation von lehrergenerierten Denkpfaden, um zwei Ziele zu erreichen, die unbefugte Distillation abschrecken sollen: (1) Anti-Distillation, also die Verschlechterung der Trainingsnutzbarkeit von Antworten auf Anfragen, und (2) API-Wasserzeichen, die verifizierbare Signaturen in Schüler-Modelle einbetten. Wir stellen mehrere Ansätze zur dynamischen Umformulierung der Denkausgaben eines Lehrer-Modells vor, wobei die Antwortkorrektheit und semantische Kohärenz erhalten bleiben. Zwei dieser Ansätze nutzen die Umformulierungsfähigkeiten von LLMs, während andere gradientenbasierte Techniken verwenden. Unsere Experimente zeigen, dass ein einfacher, auf Instruktionen basierender Umformulierungsansatz einen starken Anti-Distillationseffekt erzielt und gleichzeitig die Leistung des Lehrer-Modells beibehält oder sogar verbessert. Darüber hinaus zeigen wir, dass unser Umformulierungsansatz auch das Einbetten von Wasserzeichen ermöglicht, die zuverlässig und praktisch ohne Fehlalarme detektiert werden können. Unser Code ist verfügbar unter https://github.com/xhOwenMa/trace-rewriting.

English

Knowledge distillation is a widely adopted technique for transferring capabilities from LLMs to smaller, more efficient student models. However, unauthorized use of knowledge distillation takes unfair advantage of the considerable effort and cost put into developing frontier models. We investigate methods for modifying teacher-generated reasoning traces to achieve two objectives that deter unauthorized distillation: (1) anti-distillation, or degrading the training usefulness of query responses, and (2) API watermarking, which embeds verifiable signatures in student models. We introduce several approaches for dynamically rewriting a teacher's reasoning outputs while preserving answer correctness and semantic coherence. Two of these leverage the rewriting capabilities of LLMs, while others use gradient-based techniques. Our experiments show that a simple instruction-based rewriting approach achieves a strong anti-distillation effect while maintaining or even improving teacher performance. Furthermore, we show that our rewriting approach also enables embedding watermarks that can be reliably detected with essentially no false alarms. Our code is available at https://github.com/xhOwenMa/trace-rewriting.

Schutz von Sprachmodellen vor unautorisiertem Distillation durch Trace-Rewriting

Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Zusammenfassung

Support