Riformulazione che preserva le informazioni delle tracce di ragionamento per l'antidistillazione
Information-Preserving Reformulation of Reasoning Traces for Antidistillation
October 13, 2025
Autori: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) dimostrano che estendere la lunghezza delle catene di ragionamento migliora significativamente le prestazioni su compiti complessi. Sebbene rivelare queste tracce di ragionamento aiuti gli utenti a seguire, verificare e apprendere meglio dal processo di risoluzione dei problemi del modello, le rende anche altamente vulnerabili alla distillazione non autorizzata. Per mitigare questo rischio, i fornitori di modelli proprietari adottano spesso strategie di protezione aggressive, come sostituire i ragionamenti dettagliati con brevi riassunti, privando così gli utenti di preziose informazioni intermedie. Per affrontare questo compromesso, proponiamo PART, una riformulazione antidistillazione che preserva le informazioni delle tracce di ragionamento. Motivati dalla differenza tra come gli esseri umani comprendono le tracce di ragionamento e come gli LLM le sfruttano per il fine-tuning supervisionato, progettiamo una riformulazione semplice ma efficace in due passaggi: rimozione dei comportamenti di auto-dialogo e riordino delle sotto-conclusioni. Un piccolo modello ausiliario viene addestrato per eseguire questa riformulazione, con un sovraccarico computazionale minimo. Esperimenti estensivi dimostrano che PART interrompe costantemente la distillazione su modelli studente di diverse dimensioni e tipologie su vari benchmark di ragionamento. Ad esempio, quando si addestra su tracce riformulate, anche le prestazioni di un grande modello studente da 32B diminuiscono da 54,17 a 46,88 su AIME 2024, corrispondente a un degrado del 13,5%.
English
Recent advances in Large Language Models (LLMs) show that extending the
length of reasoning chains significantly improves performance on complex tasks.
While revealing these reasoning traces helps users better follow, verify, and
learn from the model's problem-solving process, it also makes them highly
vulnerable to unauthorized distillation. To mitigate this risk, proprietary
model providers often adopt aggressive protection strategies, such as replacing
detailed reasoning with brief summaries, which deprive users of valuable
intermediate information. To address this trade-off, we propose PART, an
information-preserving antidistillation reformulation of reasoning traces.
Motivated by the difference between how humans understand reasoning traces and
how LLMs exploit them for supervised fine-tuning, we design a simple but
effective two-step reformulation: removing self-talk behaviors and reordering
sub-conclusions. A small auxiliary model is trained to perform this
reformulation, incurring minimal computational overhead. Extensive experiments
demonstrate that PART consistently disrupts distillation across student models
of different sizes and types on various reasoning benchmarks. For instance,
when training on reformulated traces, even the performance of a large 32B
student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a
13.5% degradation.