Информационно-сохраняющая переформулировка трасс рассуждений для антидистилляции
Information-Preserving Reformulation of Reasoning Traces for Antidistillation
October 13, 2025
Авторы: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) показывают, что увеличение длины цепочек рассуждений значительно улучшает производительность при решении сложных задач. Хотя раскрытие этих траекторий рассуждений помогает пользователям лучше понимать, проверять и учиться на процессе решения задач моделью, оно также делает их крайне уязвимыми для несанкционированного дистилляции. Чтобы снизить этот риск, разработчики проприетарных моделей часто применяют агрессивные стратегии защиты, такие как замена подробных рассуждений краткими резюме, что лишает пользователей ценной промежуточной информации. Для решения этой проблемы мы предлагаем PART — информационно-сохраняющую антидистилляционную реформулировку траекторий рассуждений. Вдохновленные различием между тем, как люди понимают траектории рассуждений, и тем, как LLM используют их для контролируемого тонкого обучения, мы разработали простую, но эффективную двухэтапную реформулировку: удаление внутренних диалогов и переупорядочивание промежуточных выводов. Небольшая вспомогательная модель обучается выполнять эту реформулировку, что требует минимальных вычислительных затрат. Многочисленные эксперименты демонстрируют, что PART последовательно нарушает процесс дистилляции для моделей-учеников различных размеров и типов на различных тестах рассуждений. Например, при обучении на реформированных траекториях производительность даже крупной 32B модели-ученика снижается с 54,17 до 46,88 на AIME 2024, что соответствует ухудшению на 13,5%.
English
Recent advances in Large Language Models (LLMs) show that extending the
length of reasoning chains significantly improves performance on complex tasks.
While revealing these reasoning traces helps users better follow, verify, and
learn from the model's problem-solving process, it also makes them highly
vulnerable to unauthorized distillation. To mitigate this risk, proprietary
model providers often adopt aggressive protection strategies, such as replacing
detailed reasoning with brief summaries, which deprive users of valuable
intermediate information. To address this trade-off, we propose PART, an
information-preserving antidistillation reformulation of reasoning traces.
Motivated by the difference between how humans understand reasoning traces and
how LLMs exploit them for supervised fine-tuning, we design a simple but
effective two-step reformulation: removing self-talk behaviors and reordering
sub-conclusions. A small auxiliary model is trained to perform this
reformulation, incurring minimal computational overhead. Extensive experiments
demonstrate that PART consistently disrupts distillation across student models
of different sizes and types on various reasoning benchmarks. For instance,
when training on reformulated traces, even the performance of a large 32B
student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a
13.5% degradation.