ChatPaper.aiChatPaper

Reformulation préservant l'information des traces de raisonnement pour l'antidistillation

Information-Preserving Reformulation of Reasoning Traces for Antidistillation

October 13, 2025
papers.authors: Jiayu Ding, Lei Cui, Li Dong, Nanning Zheng, Furu Wei
cs.AI

papers.abstract

Les avancées récentes dans les modèles de langage à grande échelle (LLMs) montrent que l'extension de la longueur des chaînes de raisonnement améliore significativement les performances sur des tâches complexes. Bien que la révélation de ces traces de raisonnement aide les utilisateurs à mieux suivre, vérifier et apprendre du processus de résolution de problèmes du modèle, elle les rend également très vulnérables à une distillation non autorisée. Pour atténuer ce risque, les fournisseurs de modèles propriétaires adoptent souvent des stratégies de protection agressives, telles que le remplacement des raisonnements détaillés par des résumés succincts, privant ainsi les utilisateurs d'informations intermédiaires précieuses. Pour résoudre ce compromis, nous proposons PART, une reformulation anti-distillation préservant l'information des traces de raisonnement. Motivés par la différence entre la manière dont les humains comprennent les traces de raisonnement et celle dont les LLMs les exploitent pour un ajustement supervisé, nous concevons une reformulation simple mais efficace en deux étapes : la suppression des comportements d'auto-discussion et le réordonnancement des sous-conclusions. Un petit modèle auxiliaire est entraîné pour effectuer cette reformulation, engendrant une surcharge computationnelle minimale. Des expériences approfondies démontrent que PART perturbe systématiquement la distillation sur des modèles étudiants de différentes tailles et types sur divers benchmarks de raisonnement. Par exemple, lors de l'entraînement sur des traces reformulées, même la performance d'un grand modèle étudiant de 32B diminue de 54,17 à 46,88 sur AIME 2024, correspondant à une dégradation de 13,5 %.
English
Recent advances in Large Language Models (LLMs) show that extending the length of reasoning chains significantly improves performance on complex tasks. While revealing these reasoning traces helps users better follow, verify, and learn from the model's problem-solving process, it also makes them highly vulnerable to unauthorized distillation. To mitigate this risk, proprietary model providers often adopt aggressive protection strategies, such as replacing detailed reasoning with brief summaries, which deprive users of valuable intermediate information. To address this trade-off, we propose PART, an information-preserving antidistillation reformulation of reasoning traces. Motivated by the difference between how humans understand reasoning traces and how LLMs exploit them for supervised fine-tuning, we design a simple but effective two-step reformulation: removing self-talk behaviors and reordering sub-conclusions. A small auxiliary model is trained to perform this reformulation, incurring minimal computational overhead. Extensive experiments demonstrate that PART consistently disrupts distillation across student models of different sizes and types on various reasoning benchmarks. For instance, when training on reformulated traces, even the performance of a large 32B student model decreases from 54.17 to 46.88 on AIME 2024, corresponding to a 13.5% degradation.
PDF12October 15, 2025