ChatPaper.aiChatPaper

Reformulação de Rastros de Raciocínio com Preservação de Informação para Antidistilação

Information-Preserving Reformulation of Reasoning Traces for Antidistillation

October 13, 2025
Autores: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI

Resumo

Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) mostram que a extensão do comprimento das cadeias de raciocínio melhora significativamente o desempenho em tarefas complexas. Embora a revelação desses traços de raciocínio ajude os usuários a acompanhar, verificar e aprender melhor com o processo de resolução de problemas do modelo, isso também os torna altamente vulneráveis à destilação não autorizada. Para mitigar esse risco, os provedores de modelos proprietários frequentemente adotam estratégias de proteção agressivas, como substituir o raciocínio detalhado por resumos breves, o que priva os usuários de informações intermediárias valiosas. Para abordar esse dilema, propomos o PART, uma reformulação antidestilação que preserva informações dos traços de raciocínio. Motivados pela diferença entre como os humanos entendem os traços de raciocínio e como os LLMs os exploram para ajuste fino supervisionado, projetamos uma reformulação simples, mas eficaz, em duas etapas: remover comportamentos de auto-diálogo e reordenar subconclusões. Um pequeno modelo auxiliar é treinado para realizar essa reformulação, incorrendo em um custo computacional mínimo. Experimentos extensivos demonstram que o PART consistentemente interrompe a destilação em modelos estudantis de diferentes tamanhos e tipos em vários benchmarks de raciocínio. Por exemplo, ao treinar com traços reformulados, mesmo o desempenho de um grande modelo estudantil de 32B diminui de 54,17 para 46,88 no AIME 2024, correspondendo a uma degradação de 13,5%.
English
Recent advances in Large Language Models (LLMs) show that extending the length of reasoning chains significantly improves performance on complex tasks. While revealing these reasoning traces helps users better follow, verify, and learn from the model's problem-solving process, it also makes them highly vulnerable to unauthorized distillation. To mitigate this risk, proprietary model providers often adopt aggressive protection strategies, such as replacing detailed reasoning with brief summaries, which deprive users of valuable intermediate information. To address this trade-off, we propose PART, an information-preserving antidistillation reformulation of reasoning traces. Motivated by the difference between how humans understand reasoning traces and how LLMs exploit them for supervised fine-tuning, we design a simple but effective two-step reformulation: removing self-talk behaviors and reordering sub-conclusions. A small auxiliary model is trained to perform this reformulation, incurring minimal computational overhead. Extensive experiments demonstrate that PART consistently disrupts distillation across student models of different sizes and types on various reasoning benchmarks. For instance, when training on reformulated traces, even the performance of a large 32B student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a 13.5% degradation.
PDF22February 7, 2026