Erhaltende Neuformulierung von Argumentationsspuren für die Antidistillation
Information-Preserving Reformulation of Reasoning Traces for Antidistillation
October 13, 2025
papers.authors: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI
papers.abstract
Jüngste Fortschritte bei Large Language Models (LLMs) zeigen, dass die Verlängerung von Denkketten die Leistung bei komplexen Aufgaben erheblich verbessert. Während die Offenlegung dieser Denkspuren es Nutzern ermöglicht, den Problemlösungsprozess des Modells besser zu verfolgen, zu überprüfen und daraus zu lernen, macht sie diese auch stark anfällig für unbefugte Destillation. Um dieses Risiko zu mindern, setzen Anbieter proprietärer Modelle oft aggressive Schutzstrategien ein, wie z. B. das Ersetzen detaillierter Denkschritte durch kurze Zusammenfassungen, wodurch Nutzer wertvolle Zwischeninformationen verlieren. Um diesen Kompromiss zu adressieren, schlagen wir PART vor, eine informationserhaltende Antidestillationsreformulierung von Denkspuren. Motiviert durch den Unterschied zwischen der Art und Weise, wie Menschen Denkspuren verstehen, und der Art und Weise, wie LLMs sie für überwachtes Feinabstimmen nutzen, entwerfen wir eine einfache, aber effektive zweistufige Reformulierung: das Entfernen von Selbstgesprächen und das Neuordnen von Teilkonklusionen. Ein kleines Hilfsmodell wird trainiert, um diese Reformulierung durchzuführen, was nur minimalen Rechenaufwand verursacht. Umfangreiche Experimente zeigen, dass PART die Destillation bei Schülermodellen unterschiedlicher Größe und Art auf verschiedenen Denkbenchmarks konsequent stört. Beispielsweise sinkt die Leistung eines großen 32B-Schülermodells beim Training mit reformulierten Spuren von 54,17 auf 46,88 bei AIME 2024, was einer Verschlechterung von 13,5 % entspricht.
English
Recent advances in Large Language Models (LLMs) show that extending the
length of reasoning chains significantly improves performance on complex tasks.
While revealing these reasoning traces helps users better follow, verify, and
learn from the model's problem-solving process, it also makes them highly
vulnerable to unauthorized distillation. To mitigate this risk, proprietary
model providers often adopt aggressive protection strategies, such as replacing
detailed reasoning with brief summaries, which deprive users of valuable
intermediate information. To address this trade-off, we propose PART, an
information-preserving antidistillation reformulation of reasoning traces.
Motivated by the difference between how humans understand reasoning traces and
how LLMs exploit them for supervised fine-tuning, we design a simple but
effective two-step reformulation: removing self-talk behaviors and reordering
sub-conclusions. A small auxiliary model is trained to perform this
reformulation, incurring minimal computational overhead. Extensive experiments
demonstrate that PART consistently disrupts distillation across student models
of different sizes and types on various reasoning benchmarks. For instance,
when training on reformulated traces, even the performance of a large 32B
student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a
13.5% degradation.