Protección de Modelos Lingüísticos Contra la Destilación No Autorizada Mediante Reescritura de Trazas

Resumen

La destilación de conocimiento es una técnica ampliamente adoptada para transferir capacidades de los LLM a modelos estudiantiles más pequeños y eficientes. Sin embargo, el uso no autorizado de la destilación de conocimiento se aprovecha injustamente del considerable esfuerzo y costo invertidos en el desarrollo de modelos de vanguardia. Investigamos métodos para modificar las trazas de razonamiento generadas por el modelo profesor con el fin de lograr dos objetivos que disuaden la destilación no autorizada: (1) anti-destilación, o degradar la utilidad para el entrenamiento de las respuestas a las consultas, y (2) marca de agua para API, que incrusta firmas verificables en los modelos estudiantiles. Introducimos varios enfoques para reescribir dinámicamente las salidas de razonamiento del profesor preservando la corrección de la respuesta y la coherencia semántica. Dos de estos aprovechan las capacidades de reescritura de los LLM, mientras que otros utilizan técnicas basadas en gradientes. Nuestros experimentos muestran que un simple enfoque de reescritura basado en instrucciones logra un fuerte efecto de anti-destilación manteniendo o incluso mejorando el rendimiento del profesor. Además, demostramos que nuestro enfoque de reescritura también permite incrustar marcas de agua que pueden detectarse de manera fiable con esencialmente ninguna falsa alarma. Nuestro código está disponible en https://github.com/xhOwenMa/trace-rewriting.

English

Knowledge distillation is a widely adopted technique for transferring capabilities from LLMs to smaller, more efficient student models. However, unauthorized use of knowledge distillation takes unfair advantage of the considerable effort and cost put into developing frontier models. We investigate methods for modifying teacher-generated reasoning traces to achieve two objectives that deter unauthorized distillation: (1) anti-distillation, or degrading the training usefulness of query responses, and (2) API watermarking, which embeds verifiable signatures in student models. We introduce several approaches for dynamically rewriting a teacher's reasoning outputs while preserving answer correctness and semantic coherence. Two of these leverage the rewriting capabilities of LLMs, while others use gradient-based techniques. Our experiments show that a simple instruction-based rewriting approach achieves a strong anti-distillation effect while maintaining or even improving teacher performance. Furthermore, we show that our rewriting approach also enables embedding watermarks that can be reliably detected with essentially no false alarms. Our code is available at https://github.com/xhOwenMa/trace-rewriting.

Protección de Modelos Lingüísticos Contra la Destilación No Autorizada Mediante Reescritura de Trazas

Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Resumen

Support