Het Beschermen van Taalmodellen tegen Ongeautoriseerde Destillatie via Trace Rewriting

Samenvatting

Kennisdistillatie is een veelgebruikte techniek om capaciteiten van grote taalmodellen (LLM's) over te dragen naar kleinere, efficiëntere studentmodellen. Het onbevoegd gebruik van kennisdistillatie maakt echter oneerlijk gebruik van de aanzienlijke inspanning en kosten die zijn gestoken in de ontwikkeling van geavanceerde modellen. Wij onderzoeken methoden om door de leraar gegenereerde redeneersporen aan te passen om twee doelstellingen te bereiken die onbevoede distillatie moeten afschrikken: (1) anti-distillatie, ofwel het verminderen van de trainingsbruikbaarheid van queryresponsen, en (2) API-watermerking, waarbij verifieerbare handtekeningen in studentmodellen worden ingebed. Wij introduceren verschillende benaderingen voor het dynamisch herschrijven van de redeneeruitvoer van een leraar, waarbij de antwoordnauwkeurigheid en semantische samenhang behouden blijven. Twee hiervan benutten de herschrijfcapaciteiten van LLM's, terwijl andere op gradienten gebaseerde technieken gebruiken. Onze experimenten tonen aan dat een eenvoudige, op instructies gebaseerde herschrijfaanpak een sterk anti-distillatie-effect bereikt, terwijl de prestaties van de leraar behouden blijven of zelfs verbeteren. Bovendien tonen we aan dat onze herschrijfaanpak ook het inbedden van watermerken mogelijk maakt, die betrouwbaar kunnen worden gedetecteerd met vrijwel geen valse alarmen. Onze code is beschikbaar op https://github.com/xhOwenMa/trace-rewriting.

English

Knowledge distillation is a widely adopted technique for transferring capabilities from LLMs to smaller, more efficient student models. However, unauthorized use of knowledge distillation takes unfair advantage of the considerable effort and cost put into developing frontier models. We investigate methods for modifying teacher-generated reasoning traces to achieve two objectives that deter unauthorized distillation: (1) anti-distillation, or degrading the training usefulness of query responses, and (2) API watermarking, which embeds verifiable signatures in student models. We introduce several approaches for dynamically rewriting a teacher's reasoning outputs while preserving answer correctness and semantic coherence. Two of these leverage the rewriting capabilities of LLMs, while others use gradient-based techniques. Our experiments show that a simple instruction-based rewriting approach achieves a strong anti-distillation effect while maintaining or even improving teacher performance. Furthermore, we show that our rewriting approach also enables embedding watermarks that can be reliably detected with essentially no false alarms. Our code is available at https://github.com/xhOwenMa/trace-rewriting.

Het Beschermen van Taalmodellen tegen Ongeautoriseerde Destillatie via Trace Rewriting

Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Samenvatting

Support