정보 보존적 재구성을 통한 추론 흔적의 안티디스틸레이션
Information-Preserving Reformulation of Reasoning Traces for Antidistillation
October 13, 2025
저자: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI
초록
최근 대규모 언어 모델(LLMs)의 발전은 추론 체인의 길이를 연장함으로써 복잡한 작업에서의 성능을 크게 향상시킨다는 것을 보여주었습니다. 이러한 추론 과정을 공개하는 것은 사용자가 모델의 문제 해결 과정을 더 잘 따라가고, 검증하며, 학습하는 데 도움을 주지만, 동시에 무단 증류에 매우 취약하게 만듭니다. 이러한 위험을 완화하기 위해 독점 모델 제공업체들은 종종 자세한 추론을 간략한 요약으로 대체하는 등 공격적인 보호 전략을 채택하여 사용자에게 중요한 중간 정보를 제공하지 않습니다. 이러한 절충안을 해결하기 위해, 우리는 PART라는 정보 보존형 반증류 추론 재구성을 제안합니다. 인간이 추론 과정을 이해하는 방식과 LLMs가 이를 지도 학습을 위해 활용하는 방식의 차이에 착안하여, 우리는 간단하지만 효과적인 두 단계 재구성 방식을 설계했습니다: 자기 대화 행동 제거 및 하위 결론 재정렬. 이 재구성을 수행하기 위해 작은 보조 모델이 훈련되며, 이는 최소한의 계산 오버헤드를 발생시킵니다. 광범위한 실험을 통해 PART는 다양한 추론 벤치마크에서 다양한 크기와 유형의 학생 모델들에 걸쳐 증류를 일관되게 방해하는 것으로 나타났습니다. 예를 들어, 재구성된 추론 과정으로 훈련할 경우, 32B 규모의 대형 학생 모델의 성능이 AIME 2024에서 54.17에서 46.88로 감소하며, 이는 13.5%의 성능 저하에 해당합니다.
English
Recent advances in Large Language Models (LLMs) show that extending the
length of reasoning chains significantly improves performance on complex tasks.
While revealing these reasoning traces helps users better follow, verify, and
learn from the model's problem-solving process, it also makes them highly
vulnerable to unauthorized distillation. To mitigate this risk, proprietary
model providers often adopt aggressive protection strategies, such as replacing
detailed reasoning with brief summaries, which deprive users of valuable
intermediate information. To address this trade-off, we propose PART, an
information-preserving antidistillation reformulation of reasoning traces.
Motivated by the difference between how humans understand reasoning traces and
how LLMs exploit them for supervised fine-tuning, we design a simple but
effective two-step reformulation: removing self-talk behaviors and reordering
sub-conclusions. A small auxiliary model is trained to perform this
reformulation, incurring minimal computational overhead. Extensive experiments
demonstrate that PART consistently disrupts distillation across student models
of different sizes and types on various reasoning benchmarks. For instance,
when training on reformulated traces, even the performance of a large 32B
student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a
13.5% degradation.