情報保存型推論トレースの再定式化による逆蒸留
Information-Preserving Reformulation of Reasoning Traces for Antidistillation
October 13, 2025
著者: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI
要旨
大規模言語モデル(LLMs)の最近の進展により、推論チェーンの長さを拡張することが複雑なタスクにおける性能を大幅に向上させることが示されています。これらの推論過程を明らかにすることは、ユーザーがモデルの問題解決プロセスをよりよく追跡し、検証し、学ぶのに役立ちますが、同時に不正な蒸留に対して非常に脆弱にもなります。このリスクを軽減するため、プロプライエタリモデルの提供者は、詳細な推論を簡潔な要約に置き換えるなど、積極的な保護戦略を採用することが多く、これによりユーザーは貴重な中間情報を失うことになります。このトレードオフに対処するため、我々はPART(情報を保持する抗蒸留推論再構成)を提案します。人間が推論過程を理解する方法とLLMsがそれらを教師あり微調整に利用する方法の違いに着目し、自己対話行動の削除とサブ結論の並べ替えというシンプルだが効果的な2段階の再構成を設計しました。この再構成を行うために、最小限の計算オーバーヘッドで済む小さな補助モデルを訓練します。広範な実験により、PARTがさまざまな推論ベンチマークにおいて、異なるサイズやタイプの学生モデルに対する蒸留を一貫して妨げることが実証されています。例えば、再構成された推論過程で訓練した場合、32Bの大規模学生モデルの性能でさえ、AIME 2024において54.17から46.88に低下し、13.5%の性能劣化が確認されました。
English
Recent advances in Large Language Models (LLMs) show that extending the
length of reasoning chains significantly improves performance on complex tasks.
While revealing these reasoning traces helps users better follow, verify, and
learn from the model's problem-solving process, it also makes them highly
vulnerable to unauthorized distillation. To mitigate this risk, proprietary
model providers often adopt aggressive protection strategies, such as replacing
detailed reasoning with brief summaries, which deprive users of valuable
intermediate information. To address this trade-off, we propose PART, an
information-preserving antidistillation reformulation of reasoning traces.
Motivated by the difference between how humans understand reasoning traces and
how LLMs exploit them for supervised fine-tuning, we design a simple but
effective two-step reformulation: removing self-talk behaviors and reordering
sub-conclusions. A small auxiliary model is trained to perform this
reformulation, incurring minimal computational overhead. Extensive experiments
demonstrate that PART consistently disrupts distillation across student models
of different sizes and types on various reasoning benchmarks. For instance,
when training on reformulated traces, even the performance of a large 32B
student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a
13.5% degradation.