Informatiebehoudende herformulering van redeneersporen voor antidistillatie
Information-Preserving Reformulation of Reasoning Traces for Antidistillation
October 13, 2025
Auteurs: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI
Samenvatting
Recente ontwikkelingen in Large Language Models (LLMs) laten zien dat het verlengen van redeneerketens de prestaties aanzienlijk verbetert bij complexe taken. Hoewel het onthullen van deze redeneersporen gebruikers helpt om het probleemoplossingsproces van het model beter te volgen, te verifiëren en ervan te leren, maakt het ze ook zeer kwetsbaar voor ongeoorloofde distillatie. Om dit risico te beperken, nemen aanbieders van propriëtaire modellen vaak agressieve beschermingsstrategieën aan, zoals het vervangen van gedetailleerde redeneringen door korte samenvattingen, waardoor gebruikers waardevolle tussentijdse informatie wordt ontnomen. Om deze afweging aan te pakken, stellen we PART voor, een informatiebehoudende antidistillatie-herformulering van redeneersporen. Geïnspireerd door het verschil tussen hoe mensen redeneersporen begrijpen en hoe LLMs ze gebruiken voor supervised fine-tuning, ontwerpen we een eenvoudige maar effectieve tweestaps herformulering: het verwijderen van zelfsprekend gedrag en het herordenen van subconclusies. Een klein hulpmodel wordt getraind om deze herformulering uit te voeren, wat minimale rekenkosten met zich meebrengt. Uitgebreide experimenten tonen aan dat PART consistent distillatie verstoort bij studentmodellen van verschillende groottes en typen op diverse redeneerbenchmarks. Bijvoorbeeld, wanneer getraind op herformuleerde sporen, daalt zelfs de prestaties van een groot 32B studentmodel van 54,17 naar 46,88 op AIME 2024, wat overeenkomt met een degradatie van 13,5%.
English
Recent advances in Large Language Models (LLMs) show that extending the
length of reasoning chains significantly improves performance on complex tasks.
While revealing these reasoning traces helps users better follow, verify, and
learn from the model's problem-solving process, it also makes them highly
vulnerable to unauthorized distillation. To mitigate this risk, proprietary
model providers often adopt aggressive protection strategies, such as replacing
detailed reasoning with brief summaries, which deprive users of valuable
intermediate information. To address this trade-off, we propose PART, an
information-preserving antidistillation reformulation of reasoning traces.
Motivated by the difference between how humans understand reasoning traces and
how LLMs exploit them for supervised fine-tuning, we design a simple but
effective two-step reformulation: removing self-talk behaviors and reordering
sub-conclusions. A small auxiliary model is trained to perform this
reformulation, incurring minimal computational overhead. Extensive experiments
demonstrate that PART consistently disrupts distillation across student models
of different sizes and types on various reasoning benchmarks. For instance,
when training on reformulated traces, even the performance of a large 32B
student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a
13.5% degradation.