Raisonnement Concis, Gains Importants : Élagage des Traces de Raisonnement Longues avec un Prompting Conscient de la Difficulté
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting
May 26, 2025
Auteurs: Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo
cs.AI
Résumé
Les méthodes existantes de distillation de chaînes de raisonnement (CoT) peuvent transférer efficacement les capacités de raisonnement aux modèles de base, mais elles souffrent de deux limitations majeures : la verbosité excessive des traces de raisonnement et l'adaptabilité insuffisante à la difficulté des problèmes. Les longues traces de raisonnement augmentent significativement les coûts d'inférence, et les solutions de longueur uniforme empêchent les modèles de base d'apprendre des stratégies de raisonnement adaptatives. Pour résoudre ces problèmes, nous proposons une méthode de prompting adaptée à la difficulté (DAP) pour raccourcir dynamiquement les traces de raisonnement sans perte de performance. Dans notre approche, un grand modèle enseignant évalue d'abord la difficulté de chaque problème, puis réécrit ses traces de raisonnement à une longueur appropriée plus courte, produisant ainsi des traces de raisonnement concises mais complètes. En exploitant le pipeline DAP, nous avons constitué un ensemble de données distillé appelé LiteCoT, composé de 100 000 exemples de raisonnement concis, avec des solutions ne dépassant en moyenne que 720 tokens (un ordre de grandeur plus court que les CoT typiques). En utilisant LiteCoT, nous avons distillé une nouvelle famille de modèles de raisonnement appelée Liter (1,5B, 7B et 32B) basée sur l'architecture Qwen2.5. Les expériences montrent qu'un modèle étudiant affiné sur seulement 100 000 de ces échantillons CoT élagués selon la difficulté surpasse un modèle distillé sur 800 000 échantillons CoT originaux longs, tout en réduisant significativement les coûts d'entraînement et d'inférence. Notre méthode généralise également bien : sur 11 benchmarks divers, les CoT plus courts adaptés à la difficulté atteignent une précision égale ou supérieure à celle des longues chaînes, en utilisant beaucoup moins de tokens. Par exemple, sur l'examen difficile AIME24, notre approche atteint 74,2 % de Pass@1 en utilisant seulement environ 5 000 tokens d'inférence, surpassant d'autres méthodes qui consomment beaucoup plus de tokens. Notre code et nos données sont disponibles à l'adresse https://github.com/Evanwu1125/LiteCoT.
English
Existing chain-of-thought (CoT) distillation methods can effectively transfer
reasoning abilities to base models but suffer from two major limitations:
excessive verbosity of reasoning traces and inadequate adaptability to problem
difficulty. Long reasoning traces significantly increase inference costs, and
uniform-length solutions prevent base models from learning adaptive reasoning
strategies. To address these issues, we propose a difficulty-aware prompting
(DAP) method to dynamically shorten reasoning traces without performance loss.
In our approach, a large teacher model first judges each problem's difficulty
and then rewrites its reasoning traces to an appropriate shorter length,
yielding concise yet complete reasoning traces. Leveraging the DAP pipeline, we
curate a distilled dataset called LiteCoT consisting of 100K concise reasoning
examples, with solutions averaging only 720 tokens (an order of magnitude
shorter than typical CoTs). Using LiteCoT, we distilled a new family of
reasoning models called Liter (1.5B, 7B, and 32B) based on the Qwen2.5
architecture. Experiments show that a student model fine-tuned on just 100K of
these difficulty-pruned CoT samples outperforms a model distilled on 800K
original Long CoT samples, while significantly reducing training and inference
costs. Our method also generalizes well: across 11 diverse benchmarks, the
shorter difficulty-aware CoTs achieve equal or better accuracy than Long
chains, using far fewer tokens. For example, on the challenging AIME24 exam,
our approach reaches 74.2% Pass@1 using only about 5K inference tokens,
surpassing other methods that consume many more tokens. Our code and data are
available at https://github.com/Evanwu1125/LiteCoT.Summary
AI-Generated Summary