Reformulación Conservadora de la Información de Huellas de Razonamiento para la Antidestilación
Information-Preserving Reformulation of Reasoning Traces for Antidistillation
October 13, 2025
Autores: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI
Resumen
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran que extender la longitud de las cadenas de razonamiento mejora significativamente el rendimiento en tareas complejas. Si bien revelar estas trazas de razonamiento ayuda a los usuarios a seguir, verificar y aprender mejor del proceso de resolución de problemas del modelo, también las hace altamente vulnerables a la destilación no autorizada. Para mitigar este riesgo, los proveedores de modelos propietarios suelen adoptar estrategias de protección agresivas, como reemplazar el razonamiento detallado con resúmenes breves, lo que priva a los usuarios de información intermedia valiosa. Para abordar este dilema, proponemos PART, una reformulación antidestilación que preserva la información de las trazas de razonamiento. Motivados por la diferencia entre cómo los humanos comprenden las trazas de razonamiento y cómo los LLMs las explotan para el ajuste fino supervisado, diseñamos una reformulación simple pero efectiva en dos pasos: eliminar los comportamientos de autodiálogo y reordenar las subconclusiones. Un pequeño modelo auxiliar se entrena para realizar esta reformulación, incurriendo en un sobrecargo computacional mínimo. Experimentos extensivos demuestran que PART interrumpe consistentemente la destilación en modelos estudiantes de diferentes tamaños y tipos en varios benchmarks de razonamiento. Por ejemplo, al entrenar con trazas reformuladas, incluso el rendimiento de un modelo estudiante grande de 32B disminuye de 54.17 a 46.88 en AIME 2024, lo que corresponde a una degradación del 13.5%.
English
Recent advances in Large Language Models (LLMs) show that extending the
length of reasoning chains significantly improves performance on complex tasks.
While revealing these reasoning traces helps users better follow, verify, and
learn from the model's problem-solving process, it also makes them highly
vulnerable to unauthorized distillation. To mitigate this risk, proprietary
model providers often adopt aggressive protection strategies, such as replacing
detailed reasoning with brief summaries, which deprive users of valuable
intermediate information. To address this trade-off, we propose PART, an
information-preserving antidistillation reformulation of reasoning traces.
Motivated by the difference between how humans understand reasoning traces and
how LLMs exploit them for supervised fine-tuning, we design a simple but
effective two-step reformulation: removing self-talk behaviors and reordering
sub-conclusions. A small auxiliary model is trained to perform this
reformulation, incurring minimal computational overhead. Extensive experiments
demonstrate that PART consistently disrupts distillation across student models
of different sizes and types on various reasoning benchmarks. For instance,
when training on reformulated traces, even the performance of a large 32B
student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a
13.5% degradation.